Google Mente profunda Nvidia compartió el jueves los últimos avances en robótica y modelos de lenguaje de visión (VLM). El departamento de investigación de IA del gigante tecnológico está trabajando con modelos de visión avanzados para desarrollar nuevas capacidades en robótica. En un nuevo estudio, DeepMind destaca que el uso de Gemini 1.5 Pro y su larga ventana de contexto ahora ha permitido al departamento lograr avances en la navegación en el mundo real y la comprensión de sus robots. A principios de este año, NVIDIA también anunció el lanzamiento de Gemini 1.5 Pro. ha sido detectado Nueva tecnología de inteligencia artificial que mejora las capacidades avanzadas de robots con apariencia humana.
Google DeepMind utiliza Gemini AI para mejorar los robots
en correo En X (anteriormente conocido como Twitter), Google DeepMind reveló que estaba entrenando a sus bots usando mellizo 1.5 Ventana contextual con 2 millones de tokens. Las ventanas de contexto pueden entenderse como la ventana de conocimiento visual de un modelo de IA, que utiliza para procesar información indirecta sobre el tema a consultar.
Por ejemplo, si un usuario le pregunta a un modelo de IA “sabores de helado más populares”, el modelo de IA comprobará la palabra clave “helado” y “sabores” para encontrar información sobre esa pregunta. Si esta ventana de información es demasiado pequeña, la IA sólo podrá responder con los nombres de diferentes sabores de helado. Sin embargo, si fuera más grande, la IA también podría ver la cantidad de artículos sobre cada sabor de helado para encontrar los más mencionados e inferir el “factor de popularidad”.
DeepMind aprovecha esta larga ventana contextual para entrenar a sus robots en entornos del mundo real. La sección tiene como objetivo descubrir si el robot es capaz de recordar detalles del entorno y ayudar a los usuarios cuando se les pregunta sobre el entorno utilizando términos contextuales o ambiguos. En un vídeo compartido en InstagramEl departamento de IA demostró que el robot era capaz de dirigir a un usuario a una pizarra cuando le preguntaba dónde podía dibujar.
“Con el contexto de 1 millón de caracteres en 1.5 Pro, nuestros robots pueden usar instrucciones humanas, recorridos en video y sentido común para encontrar con éxito su camino a algún lugar”, dijo Google DeepMind en una publicación de blog.
en Estancia Un artículo publicado en arXiv (una revista en línea no revisada por pares) en el que DeepMind explica la tecnología detrás de este truco. Además de Géminis, ella también es Usar Su Transformador Automático Modelo 2 (RT-2). Es un modelo de visión, lenguaje y acción (VLA) que aprende de datos web y bots. Utiliza visión por computadora para procesar entornos del mundo real y utilizar esta información para crear conjuntos de datos. Este conjunto de datos puede ser procesado posteriormente por IA generativa para analizar comandos contextuales y producir los resultados deseados.
Hoy en día, Google DeepMind utiliza esta arquitectura para entrenar robots en una categoría amplia conocida como navegación instructiva multimodal (MIN), que incluye exploración del entorno y navegación guiada por instrucciones. Si la demostración de la empresa es legítima, la tecnología podría ayudar a que la robótica avance aún más.