Alibaba El equipo de investigación de Qwen ha lanzado en versión preliminar otro modelo de inteligencia artificial (IA) de código abierto. Llamado QVQ-72B, es un modelo de razonamiento basado en la visión que puede analizar información visual a partir de imágenes y comprender el contexto detrás de ella. El gigante tecnológico también compartió los resultados comparativos del modelo de IA y destacó que en una prueba específica, pudo superar al modelo o1 de OpenAI. Vale la pena señalar que Alibaba tiene Liberado Recientemente se han abierto varios modelos de IA, incluidos los modelos de lenguaje grande (LLM) centrados en el razonamiento QwQ-32B y Marco-o1.
Lanzamiento del modelo de inteligencia artificial basado en visión QVQ-72B de Alibaba
en la cara abrazando existenteel equipo Qwen de Alibaba ha detallado un nuevo modelo de IA de código abierto. Al describirlo como un modelo de investigación experimental, los investigadores enfatizaron que el QVQ-72B viene con capacidades mejoradas de razonamiento visual. Curiosamente, se trata de dos ramas distintas del rendimiento y los investigadores las combinaron en este modelo.
Abundan los modelos de IA basados en la visión. Esto incluye software de codificación de imágenes y puede analizar información visual y el contexto detrás de ella. Asimismo, los modelos centrados en la inferencia, como el o1 y el QwQ-32B, vienen con capacidades de escalamiento de cálculo en el momento de la prueba que les permiten aumentar el tiempo de procesamiento del modelo. Esto permite que el modelo analice y resuelva el problema paso a paso y evalúe y corrija el resultado frente al validador.
Con el modelo preliminar QVQ-72B, Alibaba ha combinado estas dos funciones. Ahora puede analizar información de imágenes y responder consultas complejas utilizando estructuras centradas en el razonamiento. El equipo destaca que ha mejorado significativamente el rendimiento del modelo.
Al compartir calificaciones de pruebas internas, los investigadores afirmaron que el QVQ-72B pudo obtener una puntuación del 71,4 por ciento en el punto de referencia MathVista (mini), superando al modelo o1 (71,0). También se dice que obtuvo una puntuación del 70,3 por ciento en el punto de referencia de comprensión multitarea multimedia (MMMU).
Aunque se mejora el rendimiento, existen varias limitaciones, como ocurre con la mayoría de los modelos experimentales. El modelo de IA a veces mezcla diferentes idiomas o cambia entre ellos inesperadamente, informó el equipo de Quinn. La cuestión del cambio de código también es destacada en el modelo. Además, el modelo es propenso a caer en bucles de pensamiento recursivos, lo que afecta el resultado final.