El sueño del pez de Babel, el animal localizado representado en la clásica serie de ciencia ficción La guía del autoestopista galáctico, puede estar más cerca de la realidad. Los investigadores del gigante tecnológico Meta han creado un sistema de aprendizaje automático que traduce casi instantáneamente el habla en 101 idiomas en palabras pronunciadas por un sintetizador de voz en cualquiera de los 36 idiomas de destino.
El sistema de traducción automática multilingüe y multimedia (SEAMLESSM4T) también puede traducir voz a texto, texto a voz y texto a texto. Los resultados se describen en naturaleza El 15 de enero1.
Meta, que tiene su sede en Menlo Park, California, y opera sitios de redes sociales como Facebook, WhatsApp e Instagram, dice que está poniendo SEAMLESSM4T a disposición de otros investigadores que quieran aprovecharlo, tras el éxito de su lanzamiento. LLaMA es un gran modelo de lenguaje Para desarrolladores de todo el mundo.
Escasez de datos
La traducción automática ha logrado grandes avances en las últimas décadas, gracias en gran parte a la introducción de redes neuronales entrenadas en grandes conjuntos de datos. Los datos sobre formación son abundantes para los principales idiomas, especialmente el inglés, pero extremadamente escasos para muchos otros. Esta desigualdad ha limitado la gama de idiomas que las máquinas pueden entrenar para traducir. “Esto afecta a cualquier idioma que aparece con poca frecuencia en Internet”, escribió Allison Koenicki, científica informática de la Universidad de Cornell en Ithaca, Nueva York, en el artículo de News & Views que acompaña al artículo.
El libro del robot: el auge y los peligros de la inteligencia artificial generadora de lenguaje
El equipo de Meta se basó en su trabajo anterior en traducción de voz a voz.2 Y también en un proyecto llamado Ninguna lengua quedó atrás3cuyo objetivo es proporcionar traducción de texto a texto para unos 200 idiomas. A través de la experiencia, investigadores de Meta y otros lugares han descubierto que hacer que los sistemas de traducción sean multilingües puede mejorar su rendimiento incluso al traducir idiomas con datos de capacitación limitados; No está claro por qué sucede esto.
El equipo recopiló millones de horas de archivos de audio del discurso, junto con traducciones humanas de ese discurso, de Internet y otras fuentes, como los archivos de las Naciones Unidas. Los autores también recopilaron transcripciones de algunos de esos sermones.
El equipo también utilizó datos confiables para entrenar el modelo para identificar dos contenidos idénticos. Esto permitió a los investigadores vincular casi medio millón de horas de audio con texto y hacer coincidir automáticamente cada fragmento de un idioma con su contraparte en otros idiomas.