Google adelanta la visión por computadora y las capacidades de conversación de Gemini AI antes de su evento Google I/O



Google compartió un vídeo en sus plataformas de redes sociales el lunes, mostrando las nuevas capacidades de su chatbot de inteligencia artificial (IA). mellizo. El vídeo se publicó justo un día antes de la conferencia anual centrada en desarrolladores de la empresa. E/S de Google Ocurrió. Se cree que el gigante tecnológico podría hacer varios anuncios sobre IA y revelar nuevas características y posiblemente nuevos modelos de IA. Además, es probable que se consiga el primer puesto Androide 15 y Wear OS 5, que se podrá revelar durante el evento.

En un breve vídeo publicado en X (anteriormente conocido como Twitter), la cuenta oficial de Google adelantó nuevas capacidades para su chatbot interno. El video de 50 segundos destacó mejoras notables en su discurso, dándole a Gemini una voz más emocional y modificaciones que le dieron una apariencia más humana. Además, el vídeo destacó nuevas capacidades de visión por computadora. La inteligencia artificial puede capturar elementos visuales en la pantalla y analizarlos.

Gemini también tiene acceso a la cámara de un teléfono inteligente, una capacidad que no tiene en la actualidad. El usuario movería la cámara por el espacio y pediría a la IA que describiera lo que vio. Casi sin demora alguna, y chatbot Puede describir el escenario como un escenario y, cuando se le pregunta, incluso puede reconocer Google Logotipo de E/S y compartir información al respecto.

El video no compartió ningún otro detalle sobre la IA, sino que pidió a las personas que vieran el evento para obtener más información. Hay algunas preguntas que podrían responderse durante el evento, como si Google está utilizando un nuevo modelo de lenguaje grande (LLM) para visión por computadora o si es una versión mejorada de Gemini 1.5 Pro. Además, Google también puede revelar qué puede hacer la IA con su visión por computadora. Vale la pena señalar que hay rumores de que el gigante tecnológico podría introducir gemas, que son agentes de chat que pueden diseñarse para tareas específicas, como AbiertoAI GPTS.

See also  ¿Por qué los asistentes de IA están pasando por un momento así?

Si bien se espera que el evento de Google presente nuevas funciones para Gemini, OpenAI celebró su evento Spring Update el lunes y presentó su último prototipo de IA GPT-4o que agregó funciones a ChatGPT, similar al vídeo compartido por Google. El nuevo modelo de IA permite el habla conversacional, la visión por computadora, la traducción de idiomas en tiempo real y más.



Source Article Link

Leave a Comment