Alibaba Recientemente introdujo un modelo de IA centrado en heurística llamado Marco-o1. Este modelo es similar al modelo de lenguaje grande QwQ-32B, que también está optimizado para tareas que requieren habilidades de pensamiento avanzadas; sin embargo, una diferencia importante es que Marco-o1 es un modelo más pequeño y se deriva del modelo Qwen2-7B-Instruct. El gigante tecnológico chino afirmó que se utilizaron varios ejercicios de ajuste para que el nuevo modelo se centrara en el pensamiento. Además, los investigadores destacaron que está optimizado para tareas complejas de resolución de problemas del mundo real.
Modelo de inteligencia artificial Alibaba Marco-O1
El nuevo modelo de IA se detalla en un artículo papel Ha sido publicado en arXiv, una revista electrónica preimpresa. Cabe señalar que los artículos publicados en la revista electrónica no están sujetos a revisión por pares. Además, Alibaba también tiene… Alojado Se ha permitido descargar y utilizar el modelo de IA en Hugging Face para casos de uso personal y comercial bajo la licencia Apache 2.0.
Sin embargo, no es completamente de código abierto ya que solo se ha puesto a disposición un conjunto de datos parcial. Como tal, los usuarios no podrán duplicar ni descomponer el modelo para analizar la estructura o los componentes.
Al llegar a Marco-o1, se ajustó a partir del modelo base Qwen2-7B-Instruct. En este artículo, los investigadores destacan que el modelo de IA se apoya en el ajuste de la Cadena de Pensamiento (CoT), la Búsqueda de Árboles de Monte Carlo (MCTS), los mecanismos de reflexión y otras estrategias de razonamiento.
Como resultado, el software Marco-o1 de Alibaba es capaz de resolver preguntas abiertas y encontrar consultas para responder “donde no existen criterios claros y donde las recompensas son difíciles de cuantificar”. Sin embargo, debe entenderse que las capacidades de pensamiento avanzado no provinieron de ningún avance en el hardware o la arquitectura.
En cambio, todos los modelos de inferencia actuales utilizan una técnica llamada computación en tiempo de prueba que permite que un modelo de IA dedique más tiempo de procesamiento a una sola consulta. Esto les permite probar diferentes teorías para encontrar la solución y comprobar los hechos por sí mismos. Como resultado, estos modelos están orientados a brindar respuestas más precisas y completar tareas complejas. Un área importante en la que Marco-o1 sobresale, según los investigadores, es la comprensión de los matices de la jerga y la traducción de expresiones coloquiales.
Una limitación del modelo de IA, según los investigadores, es que, si bien Marco-o1 muestra propiedades de inferencia, su “rendimiento sigue siendo inferior al del modelo de inferencia completamente realizado”.