Google también mostró sus novedades modo DJ en música, un generador de música impulsado por inteligencia artificial que permite a los músicos crear bucles y muestras de canciones según indicaciones. (El modo DJ se mostró durante Whimsical and Delightful actuación por el músico Marc Rebelette, quien dirigió la conferencia magistral de I/O).
Desarrollo en investigación
Desde sus humildes comienzos como empresa centrada en las búsquedas, Google sigue siendo el actor más destacado en la industria de las búsquedas (a pesar de algunas características muy buenas, es un poco más… Opciones especiales). Las últimas actualizaciones de IA de Google son Cambio sísmico para su producto principal.
Las nuevas capacidades de reconocimiento contextual ayudan a la Búsqueda de Google a ofrecer resultados más relevantes.
Cortesía de Google
Algunas de las nuevas capacidades incluyen la búsqueda estructurada por IA, que permite resultados de búsqueda más compactos y legibles, así como la capacidad de obtener mejores respuestas a consultas más largas y búsquedas de imágenes.
También hemos visto descripciones generales de IA, que son resúmenes breves que combinan información de múltiples fuentes para responder la pregunta que ingresó en el cuadro de búsqueda. Estos resúmenes aparecen en la parte superior de los resultados, por lo que ni siquiera necesita ir a un sitio web para obtener las respuestas que busca. Estas descripciones generales ya son controvertidas, ya que los editores y los sitios web temen que una búsqueda en Google que responda preguntas sin que el usuario tenga que hacer clic en ningún enlace conduzca a… hechizo de muerte Para los sitios a los que deberías ir longitudes extremas Aparecer en los resultados de búsqueda de Google en primer lugar. Sin embargo, estas descripciones generales recientemente mejoradas de la IA se implementarán para todos en los EE. UU. a partir de hoy.
Una nueva característica llamada Inferencia de varios pasos le permite encontrar múltiples capas de información sobre un tema cuando busca cosas con cierta profundidad contextual. Google utilizó la planificación de un viaje como ejemplo, mostrando cómo la búsqueda en mapas puede ayudar a encontrar hoteles y establecer rutas de transporte público. Luego sugiere restaurantes y ayuda a planificar las comidas para el viaje. Puede profundizar su búsqueda buscando tipos específicos de cocina u opciones vegetarianas. Toda esta información se le presenta de forma organizada.
Búsqueda visual avanzada en Lens.
Cortesía de Google
Finalmente, vimos una demostración rápida de cómo los usuarios confían en Google Lens para responder preguntas sobre cualquier cosa a la que apunten con la cámara. (Sí, esto suena similar a lo que hace el Proyecto Astra, pero esas capacidades están integradas en Lens de una manera ligeramente diferente). La demostración mostraba a una mujer tratando de tocar un tocadiscos “roto”, pero Google determinó que la tecnología del brazo del tocadiscos simplemente necesitaba ser modificado, y proporcionó Tiene algunas opciones para instrucciones en video e instrucciones en texto sobre cómo hacer esto. Incluso identificó correctamente la marca y modelo del tocadiscos a través de la cámara.
Lauren Good de WIRED habló con la jefa de búsqueda de Google, Liz Read, sobre esto Todas las actualizaciones de IA La llegada a la Búsqueda de Google y lo que eso significa para Internet en su conjunto.
Seguridad y proteccion
Detectar fraude en el trabajo.
Foto de : Julián Chocato
Una de las últimas cosas notables que vimos en la presentación fue una nueva función de detección de fraude para Android, que puede escuchar sus llamadas telefónicas y detectar cualquier lenguaje que suene como algo que un estafador podría usar, como pedirle que transfiera dinero a una cuenta diferente. lugar. cuenta. Si se entera de que lo están estafando, colgará y le indicará en pantalla que cuelgue. Google dice que la función se ejecuta en el dispositivo, por lo que sus llamadas telefónicas no van a la nube para su análisis, lo que hace que la función sea más privada. (Consulte también la guía de WIRED para Protégete a ti y a tus seres queridos de llamadas fraudulentas de IA.)
Google también ha ampliado su alcance ID de sintetizador Una herramienta de marca de agua destinada a distinguir medios creados con inteligencia artificial. Esto puede ayudarle a detectar información errónea, deepfakes o mensajes de phishing no deseados. La herramienta deja una marca de agua imperceptible que no se puede ver a simple vista, pero que puede detectarse mediante un software que analiza los datos a nivel de píxeles de la imagen. el Nuevas actualizaciones Hemos ampliado la función para escanear contenido en la aplicación Gemini, en la web y en videos creados con Veo. Google dice que planea lanzar SynthID como herramienta de código abierto a finales de este verano.
Google'Se describe a sí mismo como “la experiencia de IA más inteligente”, pero redefine cómo los humanos interactúan con ella. Amnistía Internacional A través de una nueva aplicación. La última oferta de Gemini se anunció en Google I/O el martes.
“Nuestra visión para Gemini es ser el asistente personal de IA más útil al brindarle acceso directo a los últimos modelos de IA de Google”, dijo Sisi Hsao, gerente general de Gemini y Google Assistant Experiences. La aplicación multimedia, que integra texto, vídeo y tecnología de audio recientemente anunciada para una estimulación más “natural”, utiliza y se basa en la nueva tecnología Gemini. Géminis 1.5 Pro y Géminis 1.5 Flashcomo se anunció hoy.
La función de voz adaptativa de la aplicación, de la que Gemini Live fue pionera, debutó este verano y permite a los usuarios tener conversaciones en tiempo real con el asistente de inteligencia artificial de Google. También incluirá a la empresa Proyecto Astra Capacidades de video, que se promocionan como el próximo gran asistente visual que puede manejar consultas basadas en video en tiempo real.
Velocidad de la luz triturable
Además, Google introducirá nuevas funciones avanzadas en la aplicación a través de su interfaz de usuario dinámica, como un asistente de planificación de viajes que incluye búsqueda de Google, mapas, calendarios y otras funciones para consejos de viaje personalizados. Los usuarios de Gemini Advanced también tendrán acceso a nuevas y masivas capacidades de almacenamiento y procesamiento (piense en 30.000 líneas de código, una tesis de 1.500 páginas o un vídeo de una hora).
Pero la mayor oferta de la compañía en la vida real para la aplicación son las “gemas” que ahorran tiempo, o indicaciones personalizables que los usuarios pueden guardar y probar una y otra vez para usos muy específicos. Los ejemplos incluyen la gema “Yoga Bestie”, la gema “Calculus Teacher” y la gema “Sous Chef”.
Crédito: Google
La revolucionaria experiencia móvil se presentó poco después de que la compañía anunciara nuevas integraciones de espacios de trabajo con sus compañeros de equipo de IA, otra demostración de la adquisición total de la IA por parte de Google. “A medida que Gemini y sus capacidades continúan evolucionando, estamos trabajando arduamente para llevar este poder al espacio de trabajo para hacer que todos nuestros usuarios sean más productivos y creativos, ya sea en casa o en el trabajo”, dijo la gerente general de Google Workspace, Aparna Pappu.
Google celebró la sesión magistral de su conferencia anual centrada en desarrolladores E/S de Google El evento es el martes. Durante la sesión, el gigante tecnológico se centró en gran medida en los nuevos desarrollos en inteligencia artificial (IA) e introdujo muchos modelos nuevos de inteligencia artificial, así como nuevas características a la infraestructura existente. Uno de los aspectos más destacados fue la introducción de una ventana contextual de 2 millones de tokens para Gemini 1.5 Pro, que actualmente está disponible para los desarrolladores. Versión más rápida de mellizo Además del modelo Small Model Language (SML) de próxima generación de Google, también se presentó Gemma 2.
El evento fue iniciado por el CEO Sundar Pichai, quien hizo uno de los anuncios más importantes de la noche: la disponibilidad de una ventana contextual de 2 millones de tokens para Gemini 1.5 Pro. La compañía introdujo una ventana contextual que contiene 1 millón de tokens a principios de este año, pero hasta ahora solo ha estado disponible para los desarrolladores. Google Ahora está disponible de forma general en versión preliminar pública y se puede acceder a él a través de Google AI Studio y Vertex AI. En cambio, la ventana de contexto de 2 millones de tokens está disponible exclusivamente a través de la cola para los desarrolladores que utilizan la API y para los clientes de Google Cloud.
Con una ventana contextual de 2 millones, afirma Google, el modelo de IA puede procesar dos horas de vídeo, 22 horas de audio, más de 60.000 líneas de código o más de 1,4 millones de palabras de una sola vez. Además de mejorar la comprensión contextual, el gigante tecnológico también ha mejorado la generación de código, el pensamiento lógico, la planificación y la conversación de varios turnos de Gemini 1.5 Pro, así como la comprensión de imágenes y audio. El gigante tecnológico también está integrando el modelo de IA en sus aplicaciones Gemini Advanced y Workspace.
Google también ha presentado una nueva incorporación a su familia de modelos Gemini AI. El nuevo modelo de IA, llamado Gemini 1.5 Flash, es un modelo liviano diseñado para ser más rápido, con mayor capacidad de respuesta y rentable. El gigante tecnológico dijo que trabajó para mejorar el tiempo de respuesta para mejorar su velocidad. Aunque resolver tareas complejas no será su fuerte, puede manejar tareas como resúmenes, aplicaciones de chat, subtítulos de imágenes y videos, extracción de datos de documentos y tablas extensos, y más.
Finalmente, el gigante tecnológico anunció su próxima generación de modelos de IA más pequeños, Gemma 2. El modelo viene con 27 mil millones de parámetros pero puede funcionar de manera eficiente en GPU o una sola TPU. Google afirma que Gemma 2 supera a los modelos que duplican su tamaño. La empresa aún no ha anunciado sus resultados récord.
el Conferencia Google I/O 2024 El discurso de apertura fue un Festival Gemini repleto, y el director ejecutivo Sundar Pichai tuvo razón al describirlo como su versión de The Eras Tour, específicamente, la “Era Gemini”, en la cima.
Todo el discurso de apertura fue sobre Géminis y la IA. En realidad, Google Lo dijo las últimas 121 veces. Desde la presentación de un asistente futurista de IA llamado “Proyecto Astra” que puede ejecutarse en un teléfono (y quizás algún día en gafas) hasta la integración de Gemini en casi todos los servicios o productos que ofrece la empresa, la IA definitivamente ha sido el gran tema.
Todo eso fue suficiente para derretir las mentes de todos, excepto de los entusiastas más fervientes del LLM, por lo que desglosamos las 7 cosas más importantes que Google reveló y discutió durante su discurso de apertura de I/O 2024.
1. Google abandonó el proyecto Astra, un “agente de inteligencia artificial” para la vida cotidiana
Entonces resulta que Google tiene una respuesta a esta pregunta. OpenAI GPT-4o Y microsoftCopiloto. Proyecto Astraconocido como el “agente de IA” de la vida cotidiana, es básicamente lente de google Con esteroides y se ve muy impresionante, capaz de comprender, razonar y responder a videos y audio en vivo.
En un video grabado en un teléfono Pixel, se ve al usuario caminando por una oficina, proporcionando una transmisión en vivo a la cámara trasera y haciendo preguntas al Astra. Géminis observaba y comprendía las imágenes y al mismo tiempo respondía preguntas.
Se trata de un contexto multimodal y de formato largo en el backend de Gemini, que funciona sobre la marcha para identificar y entregar rápidamente una respuesta. En la demostración, sabía qué parte específica era el hablante e incluso podía identificar un distrito de Londres. También es productora porque rápidamente creó el nombre de una banda para un lindo cachorro junto a un animal de peluche (ver video arriba).
No se lanzará de inmediato, pero los desarrolladores y la prensa como nosotros en TechRadar lo probaremos en I/O 2024. Si bien Google no dio más detalles, hubo un adelanto de las gafas Astra, lo que podría significar que Google Glass puede ser haciendo una reaparición.
Obtenga las mejores ofertas en su bandeja de entrada, además de noticias, reseñas, opiniones, análisis y más del equipo de TechRadar.
Sin embargo, incluso como demostración durante Google I/O, es muy impresionante y potencialmente muy convincente. Puede cargar nuestros teléfonos inteligentes y asistentes existentes de Google e incluso manzana. Además, también muestra las ambiciones reales de Google en el campo de la inteligencia artificial, una herramienta que puede resultar muy útil y que no requiere ningún uso rutinario.
2. Google Photos recibe un útil impulso de IA de Gemini
Realmente quiero saber si este es el hijo real de un empleado de Google o de un Géminis… (Crédito de la imagen: Google)
¿Alguna vez has querido encontrar rápidamente una foto específica que tomaste en algún momento del pasado lejano? Tal vez sea una carta de un ser querido, una fotografía temprana de un perro cuando era cachorro o incluso su matrícula. Bueno, Google está haciendo realidad ese deseo con una importante actualización. imágenes de google Lo que lo combina con Géminis. Esto le da acceso a su biblioteca, le permite buscar en ella y le proporciona fácilmente el resultado que está buscando.
En una demostración en el escenario, Sundar Pichai reveló que puede solicitar su propia matrícula y la aplicación de fotografía le presentará una imagen que la muestra y los números/letras que componen su matrícula. Asimismo, puedes pedir fotografías de la época en que tu hijo aprendió a nadar, así como cualquier otro detalle. Debería facilitar la búsqueda incluso en bibliotecas de fotografías no organizadas.
Google ha llamado a esta función “Preguntar fotos” y la implementará para todos los usuarios en las “próximas semanas”. Es casi seguro que será útil y atraerá a personas que no lo utilizan. imágenes de google Un poco celoso.
3. La tarea de su hijo ahora es mucho más fácil gracias a NotebookLM
(Crédito de la imagen: Google)
Todos los padres conocerán el horror de intentar ayudar a los niños con sus tareas; Si has sabido acerca de estas cosas en el pasado, no es posible que el conocimiento siga latente en tu mente 20 años después. Pero es posible que Google haya facilitado mucho la tarea gracias a una actualización de su aplicación para tomar notas NotebookLM.
NotebookLM ahora tiene acceso a Gemini 1.5 Pro y, según la demostración presentada en I/O 2024, ahora será un mejor maestro que nunca. La demostración mostró a Josh Woodward de Google cargando un cuaderno lleno de notas sobre un tema educativo, en este caso, la ciencia. Con solo presionar un botón, cree un tutorial detallado, con resultados adicionales que incluyen cuestionarios y preguntas frecuentes, todo tomado del material original.
Impresionante, pero estaba a punto de mejorar mucho. Una nueva característica, todavía un prototipo en este momento, fue capaz de generar todo el contenido como audio, creando esencialmente una discusión estilo podcast. Es más, el audio presenta a más de un orador, que habla sobre el tema de forma natural de una manera que sin duda sería más útil que un padre frustrado que intenta jugar al maestro.
Woodward incluso pudo interrumpir y hacer una pregunta, en este caso “Danos un ejemplo sobre baloncesto”, momento en el que la IA cambió de rumbo y ideó metáforas inteligentes para el tema, pero en un contexto accesible. Los padres del equipo de TechRadar están entusiasmados de probar esto.
4. Pronto podrás realizar búsquedas en Google mediante un vídeo.
(Crédito de la imagen: Google)
En una extraña demostración en el escenario utilizando un tocadiscos, Google mostró un nuevo e impresionante truco de búsqueda. Ahora puedes grabar un vídeo, buscar los resultados y, con suerte, obtener una respuesta.
En este caso, era un empleado de Google que se preguntaba cómo utilizar el tocadiscos; Hice un registro fotografiando la unidad en cuestión mientras les preguntaba algo y luego se lo envié. Google ha hecho su magia de búsqueda y ha proporcionado una respuesta de texto que se puede leer en voz alta. Es una forma completamente nueva de investigar, como lente de google En el caso del vídeo, también es claramente diferente de la IA cotidiana del próximo proyecto de Astra, que debe grabarse y luego consultarse en lugar de trabajar en tiempo real.
Sin embargo, es parte de la tecnología y la IA generativa de Gemini combinadas con la Búsqueda de Google, con el objetivo de mantenerte en esa página y facilitar la obtención de respuestas. Antes de esta demostración de búsqueda en video, Google mostró una nueva experiencia generativa para recetas y comidas. Esto le permite buscar algo en lenguaje natural y obtener recetas o incluso recomendaciones de restaurantes en la página de resultados.
En pocas palabras, Google está apostando por la IA generativa en la búsqueda, tanto para los resultados como para las diferentes formas de obtenerlos.
Este mensaje puede incluir efectos cinematográficos, como solicitar una toma temporal o una toma aérea, y Los primeros ejemplares parecen impresionantes. Tampoco tiene que empezar desde cero: cargue un vídeo con entrada de comando y Veo podrá editar el clip para que coincida con su pedido. También existe la opción de agregar máscaras y editar partes específicas del video.
¿Malas noticias? Al igual que Sora, Veo aún no está ampliamente disponible. Google dice que estará disponible para creadores seleccionados a través de VideoFX, una función de sus laboratorios beta, “en las próximas semanas”. Puede que pase algún tiempo hasta que veamos una implementación generalizada, pero Google ha prometido llevar esta función a todos. YouTube Cortos y otras aplicaciones. esto sera todo Adobe Se mueve incómodo en la silla creada por inteligencia artificial.
6. Android recibió un gran impulso de Gemini
(Crédito de la imagen: Google)
Al igual que la función “Círculo para buscar” de Google se encuentra en la parte superior de la aplicación, Gemini ahora está integrado en el núcleo de Android para integrarse con su transmisión. Como se muestra, Gemini ahora puede ver, leer y comprender lo que hay en la pantalla de su teléfono, lo que le permite anticipar preguntas sobre lo que esté viendo.
De este modo, puede obtener el contexto del vídeo que estás viendo, anticipar una solicitud de resumen al ver un PDF largo o prepararte para hacer innumerables preguntas sobre la aplicación que estás usando. Tener IA consciente del contenido integrada en el sistema operativo de un teléfono no es tarea fácil. No es nada malo y puede resultar muy beneficioso.
Junto con la integración Gemini a nivel de sistema, Gemini Nano con multimodalidad se lanzará a finales de este año en dispositivos Pixel. ¿Qué le permitirá? Bueno, eso debería acelerar las cosas, pero la característica más destacada, por ahora, es escuchar llamadas y poder alertarte en tiempo real si se trata de spam. Esto es bastante bueno y se basa en la detección de llamadas, que es una característica de larga data en los teléfonos Pixel. Se espera que sea más rápido y se procese más en el dispositivo en lugar de enviarse a la nube.
7. Google Workspace se volverá más inteligente
(Crédito de la imagen: Google)
Los usuarios del espacio de trabajo son Obtenga un tesoro de integraciones y funciones útiles de Gemini Puede tener un gran impacto en el día a día. Dentro de Mail, gracias al nuevo panel lateral de la izquierda, puedes pedirle a Gemini que resuma todas las conversaciones recientes con uno de tus colegas. Luego, el resultado se resume con puntos que destacan los aspectos más importantes.
Gemini en Google Meet puede brindarle los aspectos más destacados de la reunión o lo que otras personas en la llamada podrían preguntar. Ya no necesitarás tomar notas durante esa llamada, lo que puede resultar útil si es una llamada larga. Dentro de Google Sheets, Gemini puede ayudar a comprender los datos y procesar solicitudes, como retirar una cantidad o un conjunto de datos específicos.
El compañero de equipo virtual “Chip” podría ser el ejemplo más futurista. Puede estar presente en G-chat y ser llamado para diversas tareas o consultas. Aunque estas herramientas llegarán a Workspace, probablemente primero a través de funciones experimentales, la pregunta restante es cuándo llegarán a los clientes habituales de Gmail y Drive. Dado el enfoque de Google de llevar la IA a todos e impulsarla agresivamente a través de las búsquedas, probablemente sea sólo cuestión de tiempo.
en E/S de Google, el gigante tecnológico de los motores de búsqueda se jactó de que Gmail se está preparando para obtener nuevas capacidades de inteligencia artificial a través de Gemini. Con el soporte de Gemini para Gmail, aparecerá un nuevo campo que le permitirá pedirle al chatbot con tecnología de inteligencia artificial que resuma correos electrónicos específicos en su bandeja de entrada.
El resumen no es lo único que se está implementando en Gmail. Aquí hay tres funciones anunciadas por Google para la popular aplicación de bandeja de entrada.
1. Gmail puede resumir sus correos electrónicos por usted
Como se mencionó anteriormente, Google está agregando más magia Gemini a Gmail. He aquí un ejemplo proporcionado por Google para ilustrar las nuevas capacidades de Gmail: Imagine que tiene un hijo en la escuela primaria. Tal vez tengas varios correos electrónicos de la escuela mencionada, pero aún necesitas ponerte al día. En lugar de perder el tiempo analizando esos correos electrónicos, ahora puede utilizar Gemini como una herramienta “CliffsNotes”, que le permite resumir esos correos electrónicos.
Crédito: Google
Si utiliza un mensaje como “Sígueme en los correos electrónicos de Maywood Park Elementary”, Gemini te dará un resumen de todo lo que te perdiste y no necesitarás abrir ni un solo correo electrónico.
Velocidad de la luz triturable
2. Obtenga las funciones más destacadas de Google Meet
Supongamos que se perdió una reunión de Google Meet por una hora y no tiene tiempo suficiente para ver la grabación completa que se envió a su correo electrónico.
Crédito: Google
Usando el panel de la derecha, puedes pedirle a Gemini que te cuente los puntos clave de la reunión, lo que te permitirá mantenerte al día con tu equipo.
3. Hazle preguntas a Gemini sobre la información de tus correos electrónicos.
Mientras mostraba las capacidades móviles de Gemini, Google se jactó de que su modelo de IA puede encontrar información por usted, incluso si está enterrada en lo más profundo de su bandeja de entrada.
Crédito: Google
Por ejemplo, en una presentación de Google I/O, la demostración mostraba a una mujer preguntando: “¿Cuándo llegarán mis zapatos?”. y “¿A qué hora están abiertas las puertas para un partido de los Knicks?” No necesita buscar los correos electrónicos correctos que le brinden las respuestas a estas preguntas. En cambio, Géminis revisará sus correos electrónicos y le entregará respuestas sin mucho esfuerzo de su parte.
Google dice que las funciones de resumen se implementarán este mes, mientras que las capacidades de preguntas y respuestas estarán disponibles en julio.
E/S de Google Se lanzó el martes, el primer día de la conferencia anual de desarrolladores de la compañía. Durante el evento principal, los ejecutivos de la compañía también adelantaron nuevas características notables que llegarán a los teléfonos inteligentes Android en los próximos meses, lo cual es bastante asfixiante, la compañía no reveló. Androide 15 Funciones durante el evento principal. Estos anuncios se produjeron antes de la próxima actualización importante del sistema operativo para teléfonos inteligentes de la compañía, que se espera que llegue en la segunda mitad de 2024. Como se esperaba, Google introducirá nuevas funciones impulsadas por inteligencia artificial (IA), siguiendo el camino tomó con Android 14 el año pasado.
Dave Burke, vicepresidente de ingeniería de Google Destacar Nuevas funciones impulsadas por IA estarán disponibles en los teléfonos inteligentes Android en los próximos meses, en el evento principal de Google I/O. Una de las características más impresionantes que se ofrecen es la actualización a círculo de investigación – La función de búsqueda visual de la compañía es actualmente exclusiva para ciertos teléfonos Samsung Galaxy y Google Pixel, lo que permitirá a los estudiantes solicitar ayuda con su tarea. Google el dice que es AprenderLM La tecnología permitirá a los usuarios rodear un mensaje para resolver “problemas que involucran fórmulas simbólicas, cuadros, gráficos y más”, y se espera que la función llegue a finales de este año.
mellizo, el modelo de inteligencia artificial de la compañía que también puede ejecutarse en teléfonos inteligentes con Android, también está recibiendo actualizaciones. La compañía dice que Gemini en Android pronto podrá proporcionar información sobre videos de YouTube, mientras que las imágenes generadas por IA se podrán agregar rápidamente a Gmail y Mensajes. Al mismo tiempo, los usuarios podrán beneficiarse Géminis avanzado Obtenga respuestas de documentos PDF, sin buscar en varias páginas, con la nueva opción “Preguntar PDF”, según la empresa.
Los teléfonos inteligentes Google Pixel también serán compatibles con Gemini Nano con multimodalidad, el último modelo de la compañía para procesamiento de IA en el dispositivo. Además de la capacidad actual de procesar la entrada de texto, los teléfonos Pixel podrán procesar información contextual, como información visual, de audio e incluso hablada.
La IA también se está abriendo camino en la principal aplicación para teléfonos inteligentes de Google, el marcador. En una demostración mostrada en el evento principal de Google I/O 2024, la compañía demostró la capacidad de detectar una posible llamada fraudulenta que solicita a un usuario que transfiera información bancaria o revele información bancaria por teléfono. Se demostró que la función funciona en tiempo real y se ejecuta en el dispositivo para proteger la privacidad del usuario. Google no ha informado cuándo llegarán estas funciones a los usuarios ni qué teléfonos inteligentes (presumiblemente Pixel) serán compatibles.
Google TalkBack, la función de accesibilidad de los teléfonos inteligentes Android, se verá mejorada aún más con las funciones multimedia del Gemini Nano, según la compañía. El servicio permitirá a los usuarios con discapacidad visual obtener información más detallada sobre las imágenes, completando información sobre imágenes sin etiquetar. Google dice que estas nuevas funciones funcionarán en el dispositivo, lo que significa que los usuarios podrán aprovechar la funcionalidad mejorada incluso cuando no tengan acceso a Internet. No hay una fecha de lanzamiento establecida para el Google TalkBack mejorado impulsado por Gemini Nano con multimodalidad, pero la compañía dice que llegará “a finales de este año”.
Los enlaces de afiliados pueden generarse automáticamente; consulte nuestro sitio web Declaración de ética Para detalles.
Google I/O está actualmente en marcha y la compañía está trabajando arduamente para lograrlo. Característica tras característica Lo que potencia la inteligencia artificial para hacerte la vida más fácil.
Algunas de las características que nos llamaron la atención se relacionan con el Gemini Nano, el modelo más pequeño de la compañía basado en el Gemini. Sigue siendo muy capaz, pero es lo suficientemente pequeño como para ejecutarse completamente en hardware, lo que significa que puede realizar tareas más rápido que otras versiones de Gemini.
Como demostró Google en el escenario I/O el martes, Gemini Nano puede ayudar a una persona con problemas de visión a obtener más contexto textual cuando recibe una imagen. Otra característica muy interesante, que también se muestra en el escenario, es que Gemini Nano intercepta una llamada fraudulenta.
En la demostración, un número desconocido llama al teléfono del destinatario y dice, con poca información y un contexto sospechoso, que los fondos bancarios de la víctima están en riesgo y que es necesario trasladarlos a un lugar seguro. En ese momento, Pepito interrumpe a Nano y decide, con razón, que la llamada probablemente sea una estafa, ya que los bancos nunca le pedirían que traslade su dinero a otra parte para mantenerlo seguro.
Velocidad de la luz triturable
Aunque es reconfortante saber que hay alguien que te ayuda a eliminar llamadas fraudulentas, es un poco molesto tener una IA escuchando el contenido de tus llamadas, pero este es el nuevo mundo impulsado por la IA en el que vivimos. Afortunadamente, dado que estamos hablando del Nano, el procesamiento de audio se realiza en el propio teléfono, por lo que sus datos deben permanecer en su dispositivo.
Gemini Nano estaba disponible en Pixel 8 y Pixel 8 Pro de Google, pero Google también está trabajando para integrarlo en Chrome, comenzando con la versión 126. Allí, potenciará las funciones de inteligencia artificial, incluida la generación de texto, cuando sea necesario.
La función de detección de llamadas fraudulentas, en particular, se está probando actualmente y Google tendrá más para compartir “más adelante este verano”.
Google compartió un vídeo en sus plataformas de redes sociales el lunes, mostrando las nuevas capacidades de su chatbot de inteligencia artificial (IA). mellizo. El vídeo se publicó justo un día antes de la conferencia anual centrada en desarrolladores de la empresa. E/S de Google Ocurrió. Se cree que el gigante tecnológico podría hacer varios anuncios sobre IA y revelar nuevas características y posiblemente nuevos modelos de IA. Además, es probable que se consiga el primer puesto Androide 15 y Wear OS 5, que se podrá revelar durante el evento.
En un breve vídeo publicado en X (anteriormente conocido como Twitter), la cuenta oficial de Google adelantó nuevas capacidades para su chatbot interno. El video de 50 segundos destacó mejoras notables en su discurso, dándole a Gemini una voz más emocional y modificaciones que le dieron una apariencia más humana. Además, el vídeo destacó nuevas capacidades de visión por computadora. La inteligencia artificial puede capturar elementos visuales en la pantalla y analizarlos.
Gemini también tiene acceso a la cámara de un teléfono inteligente, una capacidad que no tiene en la actualidad. El usuario movería la cámara por el espacio y pediría a la IA que describiera lo que vio. Casi sin demora alguna, y chatbot Puede describir el escenario como un escenario y, cuando se le pregunta, incluso puede reconocer Google Logotipo de E/S y compartir información al respecto.
El video no compartió ningún otro detalle sobre la IA, sino que pidió a las personas que vieran el evento para obtener más información. Hay algunas preguntas que podrían responderse durante el evento, como si Google está utilizando un nuevo modelo de lenguaje grande (LLM) para visión por computadora o si es una versión mejorada de Gemini 1.5 Pro. Además, Google también puede revelar qué puede hacer la IA con su visión por computadora. Vale la pena señalar que hay rumores de que el gigante tecnológico podría introducir gemas, que son agentes de chat que pueden diseñarse para tareas específicas, como AbiertoAI GPTS.
Si bien se espera que el evento de Google presente nuevas funciones para Gemini, OpenAI celebró su evento Spring Update el lunes y presentó su último prototipo de IA GPT-4o que agregó funciones a ChatGPT, similar al vídeo compartido por Google. El nuevo modelo de IA permite el habla conversacional, la visión por computadora, la traducción de idiomas en tiempo real y más.
Según se informa, Google puede lanzar una nueva función de memoria que le permitirá hacer esto inteligencia artificial (Inteligencia artificial) Chatbot mellizo Recordar detalles específicos sobre los usuarios en futuras conversaciones. El gigante tecnológico parece haber tomado una página del libro de OpenAI como lo último pie Una característica similar a su implementación ChatGPT en febrero de 2024. Según la información proporcionada en el informe, la función de memoria de Gemini puede funcionar de la misma manera. Se dice que esta función se lanzará en los próximos días. También podría aparecer en el evento Google I/O programado para el martes.
El informante Dylan Roussel publicó en X (anteriormente Twitter) sobre la función y la solicitó. Google Ella planea llamarlo Memoria. También compartió una captura de pantalla de la aplicación donde se puede ver la diapositiva de introducción de la función. Los rumores sobre esta característica surgieron por primera vez el año pasado, cuando 9to5Google informó un informe Destacó que el gigante tecnológico estaba trabajando para agregar memoria contextual a largo plazo en su chatbot. Se cree que es parte de varias funciones nuevas de inteligencia artificial que Gemini podría obtener en las próximas semanas.
Google se está preparando para lanzar “Memoria”, una función que te permitirá guardar datos sobre ti o cosas que simplemente quieres que Gemini recuerde.
Según la captura de pantalla, los usuarios podrán decirle a Gemini que recuerde cosas como dónde vive, trabaja, estudia o si tiene alguna alergia. En las próximas conversaciones, chatbot Recordará esta información y adaptará sus respuestas a ella. Por ejemplo, si un usuario tiene alergia al maní y la IA solicita una receta de sándwich fácil, no sugerirá ninguna receta que pueda contener maní. Esto ahorraría al usuario la molestia de recordárselo a Gemini una y otra vez.
En la captura de pantalla, la descripción de la función dice: “Gemini recuerda la información que has compartido en los chats, como tus intereses y preferencias, para que no tengas que repetir lo que hiciste. A medida que Gemini aprenda más sobre ti, obtendrás más. respuestas adaptadas a sus necesidades Apague la memoria o administre información en la página de memoria en cualquier momento.
La información adicional, como dónde se puede agregar esta función, si será exclusiva de la aplicación o estará disponible en el sitio web, si los recuerdos se pueden eliminar y la privacidad de la información compartida, no está clara en este momento. Google puede presentarlo oficialmente en el I/O Ocurrió Esto comenzará a las 10:00 a. m. PT (10:30 p. m. EST).
It’s almost that time again, folks: we’re about to find out about some of Google’s big ideas for the year ahead at its . Most of the big news will come from the opening keynote on May 14, which will almost certainly give us more info on Android 15 as well as a whole bunch of AI updates.
There will surely be some surprises, though we’ll more than likely need to wait until the fall to get the full lowdown on the company’s latest flagship hardware.
As always, the rumor mill has been churning away with a number of reports highlighting what Google is likely to discuss at I/O. To that end, here’s what to expect from the Google I/O 2024 keynote:
Android 15
Photo by Sam Rutherford/Engadget
I/O is a developer conference first and foremost. This is always where Google gives third-party devs the full lowdown on the next major Android version so they can start working on apps for it or modify their existing products.
The first Android 15 betas are already out in the wild. Among are an updated Privacy Sandbox, partial screen sharing (so you can record or share a certain app window instead of the entire screen) and to free up space. There’s also improved satellite connectivity, additional in-app camera controls and a new power efficiency mode.
However, Google is saving the bulk of the Android 15 announcements for I/O. The company has confirmed satellite messaging is coming to Android, and we could find out more about how that works. Lock screen widgets may be a focus for tablets, while Google might place an onus on an At a Glance widget for phones. A status bar redesign may be in the offing, and it may at long last be easier for you to monitor battery health.
Wake words may once again be in the offing for third-party assistants such as Alexa and even ChatGPT. there may be a feature called Private Space to let you hide data and apps from prying eyes.
AI, and lots of it
Google
If you drop a dollar into a jar every time someone mentions AI during the keynote, you’ll probably stash away enough cash for a vacation. The safe money’s on Google talking about , which may end up replacing Assistant entirely. If that’s the case, we could find out some of the details about the transition at I/O.
Back in December, that Google was working on an AI assistant called Pixie as an exclusive feature for Pixel devices. Pixie is said to be based on Gemini and may debut in the Pixel 9 later this year, so it would make sense for the company to start discussing that at I/O.
It wouldn’t be a surprise to learn about generative AI updates for key Google products such as Search, Chrome, and G Suite. AI-driven and may be in the offing too. Meanwhile, with Google once again its plan to kill off third-party cookies in Chrome, it may see AI as and spill the beans on any plan for that at I/O.
Everything else
Google
The offers some insight into what else Google will discuss, even if those products and services won’t necessarily get airtime in the keynote.
Google has on the future of Wear OS, which will include details on “advances in the Watch Face Format,” so expect some news about its smartwatch operating system. There will also be on Google TV and Android TV.
Meanwhile, Google’s quantum computing team will talk about what’s feasible in the space and attempt to separate fact from fiction. An is on the schedule too, hinting at developments for multi-display and casting experiences.
What not to expect: Pixel 9 or Pixel Fold
Photo by Cherlynn Low / Engadget
It would be a major surprise for Google to reveal a Pixel 9 or a new Pixel Fold this early in the year. The company is probably going to save those details for the fall ahead of those devices going on sale around that time. However, it did formally at I/O last year, so we could get a glimpse of some hardware — especially if it wants to get out ahead of the leakers and control the narrative.
On the other hand, Google recently consolidated its Android and hardware teams under Rick Osterloh. His team may want a little more prep to make sure new devices are ready for primetime under the latest regime. As such, any hardware news (including anything to do with Nest or wearables) could be a little farther out.