AbiertoAI El modo de voz avanzado con función de visibilidad se lanzó en ChatGPT el jueves. Esta función, que permite al chatbot con inteligencia artificial (IA) acceder a la cámara de un teléfono inteligente para capturar información visual sobre el entorno del usuario, estará disponible para todos los suscriptores de ChatGPT Plus, Team y Pro. Esta función se basa en las capacidades de GPT-4o y puede proporcionar respuestas de audio en tiempo real a lo que se muestra en la cámara. La visión en ChatGPT fue la primera quitar el velo En mayo durante el evento Spring Updates de la compañía.
ChatGPT obtiene capacidades de visibilidad
Era una nueva característica de ChatGPT. Arrollado En el sexto día del calendario de lanzamiento de funciones de 12 días de OpenAI. Hasta ahora, la compañía de inteligencia artificial ha lanzado la versión completa del modelo o1, el modelo de generación de video Sora y la nueva herramienta Canvas. Ahora, con el modo avanzado Voz con Visión, los usuarios pueden permitir que la IA vea su entorno y haga preguntas basadas en él.
En la demostración, los miembros del equipo OpenAI interactuaron con el chatbot mientras la cámara estaba encendida, presentando a varias personas. Luego, la IA puede responder un cuestionario para estas personas incluso cuando no están activas en la pantalla. En este se destaca que Vision Mode también viene con memoria, aunque la compañía no ha especificado cuánto durará la memoria.
Los usuarios pueden utilizar ChatGPT Función de visibilidad para mostrarle a la IA su refrigerador y pedir recetas o mostrando su guardarropa y pidiendo recomendaciones de ropa. También pueden mostrarle a la IA un punto de referencia en el exterior y hacer preguntas al respecto. Esta característica se combina con la baja latencia del chatbot y el modo de voz emocional avanzado, lo que facilita a los usuarios interactuar en lenguaje natural.
Una vez que la función se implementa para los usuarios, pueden ir a la aplicación móvil ChatGPT y tocar el ícono de audio avanzado. En la nueva interfaz, ahora verán una opción de video, al hacer clic en ella, la IA tendrá acceso a la transmisión de la cámara del usuario. Además, también hay una función para compartir pantalla a la que se puede acceder tocando el menú de tres puntos.
La función de compartir pantalla permitirá a la IA ver el dispositivo del usuario y a qué aplicación o pantalla navega. De esta manera, el chatbot también puede ayudar a los usuarios con problemas y consultas relacionadas con los teléfonos inteligentes. En particular, OpenAI dijo que todos los suscriptores del equipo podrán acceder a la función durante la próxima semana en la última versión de la aplicación móvil ChatGPT.
La mayoría de los usuarios Plus y Pro también obtendrán esta función; sin embargo, los usuarios de la región de la UE, Suiza, Islandia, Noruega y Liechtenstein no la tendrán por el momento. Por otro lado, los usuarios Enterprise y Edu podrán acceder a voz avanzada con visibilidad en ChatGPT a principios de 2025.