Google DeepMind Genie presentó el miércoles el sucesor de su modelo de inteligencia artificial (IA) Genie, que puede generar infinitos mundos de juegos en 2D. El nuevo modelo de IA, llamado Genie 2, es capaz de crear entornos 3D únicos que pueden controlarse y operarse en base a un único vector de imagen. La compañía describió a Genie 2 como un “modelo universal” de inteligencia artificial y afirmó que puede crear entornos de hasta un minuto de duración utilizando objetos consistentes. La compañía dijo que estos mundos generados pueden ser jugados por humanos o usarse para entrenar agentes de inteligencia artificial.
Google DeepMind presenta el modelo de inteligencia artificial Genie 2
en un Publicación de blogLa empresa detalló el nuevo modelo de IA y sus capacidades. mientras predecesor El modelo de IA Genie 2 solo puede crear mundos de juego para plataformas 2D y puede crear mundos 3D completos con modelos consistentes con los que interactuar. Esto significa que los humanos o agentes de IA pueden caminar, correr, nadar, trepar y realizar más acciones en estos entornos.
Las capacidades generativas permiten a Genie 2 crear caminos, edificios y objetos que no se pueden ver en la imagen de entrada. Estos elementos son diseñados y presentados por el modelo desde cero. Además, el modelo básico también puede mantener la coherencia en estos entornos. Esto significa que incluso cuando el jugador se aleja de un área y regresa, los entornos siguen siendo los mismos.
Aparte de esto, Genie 2 es capaz de generar diferentes puntos de vista como puntos de vista en primera persona, puntos de vista isométricos o puntos de vista en tercera persona. Además, los usuarios también pueden interactuar con objetos en los mundos generados y realizar acciones como abrir una puerta, inflar un globo o subir una escalera. También se le puede pedir al modelo que cree efectos relacionados con la física, como ondas de agua, humo, gravedad, iluminación direccional, reflejos y más.
En términos de detalles técnicos, DeepMind explicó que Genie 2 es un modelo de difusión latente autorregresivo y fue entrenado en un gran conjunto de datos de video. La arquitectura Transformers también incluye un codificador automático que permite generar estos mundos cuadro por cuadro.
En particular, DeepMind también Liberado Un modelo de IA denominado Scalable Instructable Multiworld Agent, o SIMA, a principios de este año, es esencialmente capaz de realizar funciones de agente de IA en mundos 3D. La compañía dice que Genie 2 es capaz de proporcionar entornos únicos para agentes de IA similares y entrenarlos en diferentes escenarios de la vida real.
Dado que el modelo global puede crear entornos únicos, Google dice que esto eliminará el riesgo de contaminación de datos y permitirá a los desarrolladores evaluar adecuadamente las capacidades del agente de IA.