Mistral anuncia el lanzamiento del modelo Pixtral 12B multimedia AI con visión por computadora.



Mistral Pixtral 12B lanzó el miércoles su primer modelo multimedia de inteligencia artificial (IA) llamado Pixtral 12B. La compañía de inteligencia artificial, conocida por sus modelos de lenguajes grandes (LLM) de código abierto, también ha puesto a disposición de los usuarios su último modelo de inteligencia artificial en GitHub y Hugging Face para que los usuarios lo descarguen y lo prueben. Vale la pena señalar que a pesar de ser multimedia, Pixtral sólo puede procesar imágenes mediante tecnología de visión por computadora y responder consultas sobre las mismas. Se han agregado dos codificadores especiales para esta función. No puede crear imágenes como Propagación estable Modelos generativos de Midjourney o GAN.

Mistral lanza Pixtral 12B

Mistral ha ganado tanta fama por sus anuncios sencillos que su cuenta oficial en X (antes conocida como Twitter) lanzó el modelo de IA en correo Compartiendo su enlace magnético. El tamaño total del archivo Pixtral 12B es de 24 GB y requerirá una computadora con una NPU o una máquina con una GPU potente para ejecutar el modelo.

El Pixtral 12B viene con 12 mil millones de parámetros y está construido utilizando el modelo de IA Nemo 12B existente de la compañía. Mistral destaca que los usuarios también necesitarán una unidad lineal de error gaussiano (GeLU) como transductor de visión y una incrustación de posición rotativa 2D (RoPE) como codificador de visión.

Vale la pena señalar que los usuarios pueden cargar archivos de imágenes o URL en Pixtral 12B, y debería poder responder consultas sobre la imagen, como identificar objetos, contar su número y compartir información adicional. Debido a que está basado en Nemo, el modelo también será experto en completar todas las tareas de texto típicas.

See also  iPads, Macbooks, AirPods y más tienen hasta un 32 por ciento de descuento

Usuario de Reddit ha sido publicado Imagen que muestra puntuaciones de referencia para Pixtral 12B El LLM parece superar a Claude-3 Haiku y Phi-3 Vision en capacidades multimedia en la plataforma ChartQA. También supera a los dos modelos de IA de la competencia en la plataforma Massive Multitask Language Understanding (MMLU) en términos de conocimiento y razonamiento multimodal.

Citado por el portavoz de la empresa, TechCrunch Informes El modelo Mistral AI se puede configurar y utilizar bajo la licencia Apache 2.0. Esto significa que el resultado del modelo se puede utilizar para uso personal o comercial sin restricciones. Además, Sophia Yang, jefa de Relaciones con Desarrolladores de Mistral, explicó en correo Pixtral 12B pronto estará disponible en Le Chat y Le Platforme.

Actualmente, los usuarios pueden descargar el modelo de IA directamente mediante el enlace magnético proporcionado por la empresa. Alternativamente, también se agregan pesos de modelo. Alojado Acerca de Hugging Face y GitHub Liza.



Source Article Link

Leave a Comment