Todo el mundo sabe que el sonido es un elemento crucial en la mayoría de las películas y vídeos. Después de todo, incluso cuando las películas eran mudas, todavía había acompañamiento musical que permitía al público saber lo que sentía.
Esta ley natural sigue siendo la misma para el nuevo lote de videos generados por IA, que Ella parece inquietantemente silenciosa. Esa es parte de la razón por la que Google está trabajando en una tecnología de vídeo a audio (V2A) que “hace posible la creación simultánea de audio y vídeo”. El lunes, el laboratorio de inteligencia artificial de Google, DeepMind, Progreso conjunto sobre la creación de dicho audio, incluida la banda sonora y el diálogo, que coincidan automáticamente con los videoclips generados por IA.
Google ha puesto mucho esfuerzo en desarrollar tecnología de IA generativa multimodal para competir con sus competidores. OpenAI tiene un generador de vídeo impulsado por IA sora (aún no hecho público) y GPT-4o, generando respuestas de voz de IA. Empresas como muerto Y sol Hemos estado explorando el audio y la música generados por IA, pero vincular el audio al vídeo es relativamente nuevo. Once laboratorios DeepMind tiene una herramienta similar para hacer coincidir mensajes de voz con mensajes de texto, pero DeepMind dice que V2A es diferente porque no requiere mensajes de texto.
Velocidad de la luz triturable
El V2A se puede combinar con herramientas de vídeo de IA como Google Veo o con material de archivo y películas mudas existentes. Esto se puede utilizar para bandas sonoras, efectos de sonido e incluso diálogos. Funciona utilizando un modelo de difusión entrenado con entradas visuales, indicaciones en lenguaje natural y comentarios de video para refinar gradualmente el ruido aleatorio en audio que coincida con el tono y el contexto de los videos.
Google DeepMind dice que V2A puede “comprender píxeles sin procesar”, por lo que en realidad no necesita un mensaje de texto para generar el audio, pero ayuda con la precisión. También se le puede pedir al modelo que haga que el tono sea positivo o negativo. Junto con el anuncio, DeepMind lanzó algunos videos de demostración, incluido un video de un pasillo oscuro y espeluznante acompañado de música de terror, un vaquero solitario al atardecer grabando una relajante melodía de armónica y un personaje animado hablando sobre su cena.
V2A incluirá la marca de agua SynthID de Google como protección contra el uso indebido, y una publicación del blog de Deepmind dice que la función se encuentra actualmente en prueba antes de ser lanzada al público.