Los últimos anuncios de IA de OpenAI y Google dejan una cosa clara: son oficialmente competidores.



en Google I/O a principios de esta semanaComo era de esperar, la IA generativa ha sido un punto focal importante.

De hecho, el director ejecutivo de Google, Sundar Pichai, señaló que Pichai había dicho la palabra “IA” 122 veces, más dos veces más al concluir el evento.

El gigante tecnológico ha introducido funciones de inteligencia artificial en aparentemente todos sus productos y servicios, incluidos buscary espacio de trabajo Herramientas creativas Para vídeos, fotos y música. Pero podría decirse que la noticia más importante del día fue la comparación de Google Ads con OpenAI Ads. Un día antes del Google I/O, se presentó OpenAI GPT-4oun modelo de “multimedia local” que podría procesar elementos visuales y de audio en tiempo real, aparentemente alimentando la floreciente competencia.

La atmósfera de Google I/O fue muy diferente a la del evento OpenAI. Google parecía desenfocado, lanzando innumerables espaguetis impulsados ​​por IA contra la pared durante el evento de casi dos horas, en comparación con el enfocado e innovador OpenAI. ventoso Espectáculo de 26 minutos.

Pero las capacidades de IA que compartían las dos empresas eran notablemente similares, incluso usando la misma retórica (la IA es “interruptible”) y ejemplos (la IA puede ayudar con la tarea). A continuación, reunimos las tres grandes y aterradoras similitudes en los mensajes de las dos empresas.

1. Simular más de una entrada sensorial de estilo humano a la vez

Tanto Google como OpenAI han hablado de que sus modelos de IA son “nativamente multimodales”. En este contexto, esta terminología significa que los modelos tienen comprensión visual, auditiva y textual, todo en un solo dispositivo. En el mundo de la inteligencia artificial, estos tipos de expresión se describen como “métodos”.

Google afirma con orgullo que Gemini ha sido “nativamente multimedia” desde el principio. El GPT-4o de OpenAI fue el primer modelo que combinó el procesamiento de audio e imágenes con sus capacidades de texto existentes. Ahora Google y OpenAI están en pie de igualdad en el espacio multimedia. Las dos empresas demostraron lo que pueden hacer con tecnologías que pueden “ver” y “oír”.

Pero ambas empresas demostraron características que demostraban claramente la capacidad de sus modelos para “ver” y “oír” en tiempo real.

La vicepresidenta de Google, Sissie Hsiao, presentó una función en vivo para la aplicación independiente Gemini que refleja en qué está trabajando DeepMind con Project Astra, y la tecnología que impulsa esta función puede llegar a los suscriptores de Gemini Advanced en los próximos meses. Gemini Live “puede entenderte mejor y responder con naturalidad, incluso puedes interrumpir mientras Gemini responde y se adaptará a tu patrón de habla”, dijo Hsiao.

Si el robot de IA que puedes interrumpir te suena familiar, es porque OpenAI lo dijo primero. “Ahora puedes interrumpir el modelo”, dijo el investigador Mark Chen durante una demostración en vivo de OpenAI el día antes de Google I/O. “No tienes que esperar hasta que termine tu turno para empezar a hablar y puedes intervenir cuando quieras”.

Más adelante, en la demostración en vivo de OpenAI, el investigador Barrett Zoph usó GPT-4o para ayudarlo a resolver una ecuación matemática lineal. Zoff apuntó la cámara de su teléfono inteligente a una hoja de papel que contenía una ecuación escrita a mano y ChatGPT le enseñó cómo resolver x.

Velocidad de la luz triturable

Sameer Samat, jefe del ecosistema Android en Google, demostró una capacidad similar para ayudar con la tarea de física utilizando la herramienta Circle to Search de Google. Al rodear un problema verbal de física mostrado en un dispositivo Pixel, Samat mostró cómo Gemini podía procesar la imagen y proporcionó instrucciones paso a paso sobre cómo resolverlo.

Las dos empresas compartieron otras formas en que la multimedia puede ayudar a los usuarios. Zoph demostró las nuevas capacidades de visibilidad de ChatGPT en una aplicación de escritorio creando un gráfico a partir del código que se utilizó para demostrar la conciencia contextual de GPT-4o. ChatGPT señaló que el gráfico trataba sobre datos de temperatura a lo largo del tiempo y logró proporcionar un análisis de lo que significaba el gráfico.

Al día siguiente en Google I/O, el vicepresidente de laboratorios Josh Woodward demostró cómo Notebook LM, la pizarra digital de Google, puede tomar información de un libro de física de código abierto y convertirla en una conversación estilo podcast entre dos robots sobre las leyes de movimiento de Newton. . Luego, Woodward demostró cómo podía participar en la conversación como si estuviera llamando al podcast y pidiéndole que le asignara ejemplos a su hijo.

2. La IA es tu amiga gracias al conocimiento del contexto

El mensaje tanto de Google como de OpenAI fue sobre cómo la IA multimodal puede mejorar la vida de las personas. “Queremos que todos se beneficien de lo que Gemini puede hacer”, dijo Pichai sobre Google. Modelo líder en IA, Gemini 1.5 Pro. Esto preparó el escenario para anuncios a lo largo del evento sobre cómo adaptar a Géminis a su vida sin problemas al comprender el contexto.

En ninguna parte esto fue más evidente que en Proyecto Astra experimental video De Google DeepMind. Descrito como un “agente avanzado de visión y respuesta del habla”, la tecnología parece responder con precisión a preguntas formuladas de forma natural que señalan elementos visuales que no se indican explícitamente.

Mientras el evaluador apunta con la cámara del teléfono inteligente a diferentes objetos, describe el código en la pantalla del escritorio, define el concepto del gato de Schrödinger mostrando un simple dibujo en pizarra de la cara de un gato vivo junto a la cara de un gato muerto y una caja de cartón que sostiene el evaluador se ha preparado y se le ocurre el nombre de la banda para un animal de peluche de tigre y golden retriever (real). Por cierto, el nombre de la banda es “Golden Stripes”.

En Android, el vicepresidente de ingeniería de Google, David Burke, mostró cómo se ve la conciencia del contexto en manos de los usuarios. Burke explicó cómo se pueden hacer preguntas específicas sobre el contenido de un vídeo de YouTube, como las reglas de Pickleball, por ejemplo.

OpenAI también demostró comprensión del contexto. En demostraciones Fue publicado en el sitio web de OpenAI.la versión de audio de GPT-4o “vio” interlocutores humanos, Coqueto En un caso, señaló la camiseta de OpenAI de una demostración y, en otros, le contó chistes a papá, comprendió el sarcasmo y arbitraba un juego de piedra, papel y tijera ante la cámara. En otra demostración, se compartió casualmente parte del código con ChatGPT, y la aplicación demostró las capacidades de audio de GPT-4o al analizar el código, aparentemente sin proporcionar ninguna descripción clara de lo que se suponía que debía hacer.

El proyecto Astra de Google DeepMind todavía está en desarrollo, pero su comprensión contextual en Android se extenderá a los usuarios en los próximos meses. El modo de audio GPT-4o de OpenAI aún no está disponible y no hay detalles sobre cuándo se enviará. De acuerdo a El director ejecutivo, Sam Altman.

3. Asistentes de IA que conocen su agenda y sus necesidades comerciales

El mensaje general de Google I/O y OpenAI fue que la IA puede encargarse de tareas en su vida que van desde tareas visionarias hasta tareas mundanas, que generalmente implican, ya sabe, buscar algo en Google o usar su cerebro humano. Google ha llevado esto un paso más allá con llamadas explícitas para Agentes de inteligencia artificialasistentes y Sus compañeros de equipo (Se han utilizado muchos términos diferentes para los asistentes de IA, lo cual, francamente, todavía nos confunde).

Ejemplos de lo que pueden hacer los agentes de Google incluyen usar Gemini para devolver un par de zapatos tomándole una foto con su teléfono, pedirle al agente que busque el recibo en su bandeja de entrada de Gmail, localizar el número de pedido, completar un formulario de devolución y programar una recogida. Como señaló Pichai, Google aún no ha llegado a ese punto, pero más específicamente Panel lateral de Géminis en la aplicación móvil de Gmail Los correos electrónicos relevantes se pueden resumir o redactar respuestas basadas en pistas de contexto extraídas de su bandeja de entrada.

Aquí es donde Google tiene ventaja porque la IA se vuelve más útil cuando funciona en diferentes aplicaciones como Gmail, Google Calendar y Search. Fue OpenAI quien inició esta conversación hablando de su objetivo de lograr AGI (inteligencia general artificial) y refiriéndose a asistentes de IA en ciencia ficción como el personaje de Scarlett Johansson en la película. Ja. Durante el evento OpenAI, el director ejecutivo Sam Altman chirrido “Ella” es una referencia obvia a la película. Pero a pesar de las aspiraciones explícitas o implícitas de OpenAI para este tipo de casos de uso, no se ha hablado mucho de los agentes de IA.

Además, OpenAI enfrentará una batalla cuesta arriba si quiere que los usuarios comiencen a cargar sus documentos de trabajo y calendarios en sus cuentas ChatGPT. ¿Pero sabes qué hay en las aplicaciones de correo electrónico y calendario? manzana. Según se informa, OpenAI ha hecho precisamente eso La asociación terminó Con el fabricante de iPhone para llevar ChatGPT a iOS 18. Y la Conferencia de Desarrolladores de Apple WWDC Falta menos de un mes.

La disputa tecnológica se está calentando y pronto habrá más batallas.





Source Article Link

See also  Lo que debes saber sobre los 12 grandes días de los medios. Además: conozca al jugador número 100 de EA

Leave a Comment