Google PaliGemma presentó el jueves un modelo de lenguaje visual para inteligencia artificial (IA). La familia de modelos de IA, denominada PaliGemma 2, mejora las capacidades de la generación anterior. El gigante tecnológico con sede en Mountain View dijo que el modelo de lenguaje de visión puede ver, comprender e interactuar con entradas visuales como imágenes y otros activos visuales. Fue construido utilizando Gemma 2 Small Language Models (SLM) lanzado en agosto. Curiosamente, el gigante tecnológico afirmó que el modelo puede analizar el sentimiento en las fotos cargadas.
Modelo de inteligencia artificial de Google Palijima
en un Publicación de blogel gigante tecnológico ha detallado el nuevo modelo de IA PaliGemma 2. Si bien Google tiene muchos modelos de lenguaje visual, PaliGemma fue el primero de la familia Gemma. Los modelos de visión se diferencian de los típicos modelos de lenguaje grande (LLM) en que contienen codificadores adicionales que pueden analizar contenido visual y transformarlo en un formato de datos familiar. De esta manera, los modelos de visión técnicamente pueden “ver” y comprender el mundo exterior.
Una ventaja de un modelo de visión más pequeño es que se puede utilizar para una gran cantidad de aplicaciones, ya que los modelos más pequeños mejoran en términos de velocidad y precisión. Dado que PaliGemma 2 es de código abierto, los desarrolladores pueden utilizar sus capacidades para crear aplicaciones.
PaliGemma 2 viene con tres tamaños de parámetros diferentes: 3B, 10B y 28B. También está disponible en 224p, 448p y 896p. Por este motivo, el gigante tecnológico afirma que es fácil mejorar el rendimiento de un modelo de IA para una amplia gama de tareas. Google dice que crea títulos detallados y contextualmente relevantes para las imágenes. No sólo puede identificar objetos, sino que también puede describir acciones, emociones y la narrativa general de una escena.
Google destacó que la herramienta se puede utilizar para reconocer fórmulas químicas, reconocer partituras musicales, razonamiento espacial y generar informes de radiografías de tórax. La empresa también publicó A papel En la revista electrónica preimpresa arXiv.
Los desarrolladores y entusiastas de la IA pueden descargar el modelo y el código de PaliGemma 2 en Hugging Face y Kaggle aquí y aquí. El modelo de IA admite marcos como Hugging Face Transformers, Keras, PyTorch, JAX y Gemma.cpp.