Google Los investigadores dieron a conocer la semana pasada una nueva arquitectura de inteligencia artificial (IA) que puede permitir que los modelos de lenguaje grandes (LLM) recuerden el contexto a largo plazo de eventos y temas. El gigante tecnológico con sede en Mountain View ha publicado un artículo sobre el tema y los investigadores afirman que los modelos de IA entrenados con esta arquitectura mostraron una mayor retención de memoria “similar a la humana”. Vale la pena señalar que Google abandonó las arquitecturas tradicionales de transformadores y redes neuronales recurrentes (RNN) para desarrollar una nueva forma de enseñar a los modelos de inteligencia artificial cómo recordar información contextual.
Los gigantes pueden escalar la ventana contextual de los modelos de IA a más de 2 millones de símbolos
El investigador principal del proyecto, Ali Behrouz. publicar Acerca de la nueva arquitectura en X (anteriormente conocida como Twitter). Afirmó que la nueva arquitectura proporciona memoria descriptiva contextual con atención que enseña a los modelos de IA cómo recordar información en el momento de la prueba.
Según el documento de Google, eso fue publicado En la revista electrónica preimpresa arXiv, la arquitectura Titans puede escalar la ventana de contexto de los modelos de IA a más de dos millones de tokens. La memoria ha sido un problema difícil de resolver para los desarrolladores de IA.
Los humanos recuerdan información y eventos con contexto. Si alguien le pregunta a alguien qué llevaba puesto el fin de semana pasado, podrá recordar información contextual adicional, como asistir a la fiesta de cumpleaños de alguien a quien conoce desde hace 12 años. De esta manera, cuando se le pida que haga un seguimiento si uno se pregunta por qué llevaba una chaqueta marrón y jeans el fin de semana pasado, la persona podrá ponerlo en contexto con toda esta información a corto y largo plazo.
Por otro lado, los modelos de IA suelen utilizar esquemas de recuperación de generación aumentada (RAG), modificados para arquitecturas Transformer y RNN. Utiliza información como nodos neuronales. Entonces, cuando se le hace una pregunta al modelo de IA, accede al nodo específico que contiene la información clave, así como a los nodos cercanos que pueden contener información adicional o relacionada. Sin embargo, una vez resuelta la consulta, la información se elimina del sistema para ahorrar potencia de procesamiento.
Sin embargo, esto tiene dos desventajas. En primer lugar, el modelo de IA no puede recordar información a largo plazo. Si alguien quisiera hacer una pregunta de seguimiento una vez finalizada la sesión, tendría que proporcionar el contexto completo nuevamente (a diferencia de cómo trabajan los humanos). En segundo lugar, los modelos de IA no logran recuperar información que tenga un contexto a largo plazo.
Con Titans AI, Behrouz y otros investigadores de Google buscaron construir una arquitectura que permitiera a los modelos de IA desarrollar memoria a largo plazo que pudiera activarse continuamente, olvidando información para poder optimizarla computacionalmente.
Para ello, los investigadores diseñaron una arquitectura que codifica la historia en parámetros de redes neuronales. Se utilizan tres tipos diferentes: memoria como contexto (MAC), memoria como puerta (MAG) y memoria como capa (MAL). Cada una de estas variantes es adecuada para determinadas tareas.
Además, Titans utiliza un nuevo sistema de aprendizaje basado en sorpresas, que le dice a los modelos de IA que recuerden información inesperada o esencial sobre un tema. Estos dos cambios en la arquitectura de Titans permiten a los LLM mostrar una funcionalidad de memoria mejorada.
En el punto de referencia BABILong, Titans (MAC) muestra un rendimiento sobresaliente, escalando efectivamente a una ventana de contexto mayor a 2M y superando a modelos grandes como GPT-4, Llama3+RAG y Llama3-70B. pic.twitter.com/ZdngmtGIoW
– Ali Behrouz (@behrouz_ali) 13 de enero de 2025
En una publicación separada, Behrouz afirmó que, según las pruebas internas del punto de referencia BABILong (un enfoque de aguja en un pajar), los modelos Titans (MAC) pudieron superar a los grandes modelos de IA como GPT-4, LLama 3 + RAG. , y Llama 3 70. para.