Google I/O 2024: DeepMind muestra la interacción de IA basada en visión por computadora en tiempo real con el Proyecto Astra



E/S de Google La sesión magistral de 2024 permitió a la empresa mostrar su impresionante gama de inteligencia artificial (Inteligencia Artificial) Modelos y herramientas en los que llevas un tiempo trabajando. La mayoría de las funciones introducidas aparecerán en vistas previas públicas en los próximos meses. Sin embargo, la tecnología más interesante mostrada en el evento no estará aquí por un tiempo. Desarrollado por Google DeepMindeste nuevo asistente de IA se llamó Proyecto Astra y mostraba interacción de IA basada en visión por computadora en tiempo real.

Project Astra es un modelo de IA que puede realizar tareas muy avanzadas de chatbots existentes. Google Sigue un sistema en el que utiliza los modelos de IA más grandes y potentes para entrenar sus modelos listos para producción. Destacando un ejemplo de un modelo de IA que se está entrenando actualmente, el cofundador y director ejecutivo de Google DeepMind, Demis Hassabis, presentó el proyecto Astra. Al presentarlo, dijo: “Hoy tenemos algunos avances nuevos e interesantes que compartir sobre el futuro de los asistentes de IA que llamamos Proyecto Astra. Hace tiempo que queremos construir un agente de IA universal que pueda ser verdaderamente útil en la vida cotidiana.

Hassabis también enumeró una serie de requisitos que la compañía ha establecido para estos agentes de IA. Necesitan comprender y responder a un entorno complejo y dinámico del mundo real, y necesitan recordar lo que ven para desarrollar el contexto y tomar medidas. Además, también debe ser enseñable y personalizado para que uno pueda aprender nuevas habilidades y tener conversaciones sin demora.

Con esta descripción, el CEO de DeepMind mostró un video de demostración donde se puede ver al usuario sosteniendo un teléfono inteligente con la aplicación de cámara abierta. El usuario habla usando la IA y la IA responde instantáneamente, respondiendo varias consultas basadas en la visión. La IA también pudo utilizar información visual para contextualizar y responder preguntas relevantes que requerían habilidades creativas. Por ejemplo, el usuario le mostró a la IA algunos crayones y le pidió que los describiera con aliteraciones. Sin demora, el chatbot dice: “Los crayones creativos son deliciosamente coloridos. Definitivamente hacen creaciones coloridas.

See also  How to combine GPT-4 Turbo with Google web browsing

Pero eso no fue todo. En el vídeo, el usuario señala hacia una ventana a través de la cual se pueden ver algunos edificios y carreteras. Cuando se le pregunta sobre el vecindario, la IA inmediatamente da la respuesta correcta. Esto muestra el poder de procesamiento de visión por computadora del modelo de IA y el enorme conjunto de datos visuales que habría requerido para entrenarlo. Pero quizás la presentación más interesante fue cuando se le preguntó a la IA sobre las gafas del usuario. Ella apareció en la pantalla brevemente durante unos segundos y ya había abandonado la pantalla. Sin embargo, la IA puede recordar su ubicación y guiar al usuario hasta ella.

Project Astra no está disponible en versión preliminar pública o privada. Google todavía está trabajando en el modelo y tiene que descubrir los casos de uso de la función de IA y determinar cómo ponerla a disposición de los usuarios. Esta demostración podría haber sido la hazaña de IA más ridícula hasta el momento, pero el evento de actualización de primavera de OpenAI hace un día eliminó parte del ruido. Durante sus actividades, Abierto AI La presentación de GPT-4o mostró habilidades y sonidos emocionales similares que hicieron que la IA pareciera más humana.



Source Article Link

Leave a Comment