El sistema de inteligencia artificial de Meta es un impulso para las lenguas en peligro de extinción, siempre y cuando no se olvide a los humanos


La traducción automática funciona bien para idiomas muy utilizados, pero los idiomas con huellas digitales más pequeñas tienen dificultades.Fotografía: Zhang Hengui/Servicio de Noticias de China/Getty

En esta semana naturalezaun equipo que incluye investigadores de la empresa tecnológica Meta describe un método Ampliar la traducción automática a idiomas de “bajos recursos”. Para los cuales sólo hay unas pocas fuentes digitales disponibles1. Los sistemas de traducción automática de la empresa incluirán ahora más de 200 idiomas, muchos de los cuales actualmente no cuentan con software de traducción automática. Estos incluyen el idioma sudafricano tswana; Dari, un tipo de persa que se habla en Afganistán; y la lengua polinesia-samoana.

Es un paso importante que ayuda a cerrar la brecha digital entre los idiomas olvidados y los idiomas más utilizados en línea, como el inglés, el francés y el ruso. Podría permitir a los hablantes de lenguas de bajos recursos acceder al conocimiento en línea en su lengua materna y tal vez evitar la extinción de estas lenguas guiándolas hacia la era digital.

Pero los modelos de aprendizaje automático son tan buenos como los datos que reciben, que son generados principalmente por humanos. A medida que evolucionan las herramientas de traducción automática, las empresas detrás de ellas deben continuar interactuando con las comunidades a las que pretenden servir, o corren el riesgo de desperdiciar la promesa de la tecnología.

De las casi 7.000 lenguas que se hablan en el mundo, se considera que casi la mitad está en riesgo de extinción. Estudio 20222 Predice que la tasa de pérdida del lenguaje podría triplicarse en 40 años. El predominio de unos pocos idiomas en Internet es una fuerza impulsora: se estima que más de la mitad de todos los sitios web están en inglés y los diez idiomas principales representan más del 80% del contenido de Internet.

See also  PS5 Pro: hay nuevos rumores de que la fecha de lanzamiento se acerca rápidamente

Los investigadores, con sede en Meta AI, la División de Investigación Meta en la ciudad de Nueva York, la Universidad de California, Berkeley y la Universidad Johns Hopkins en Baltimore, Maryland, se propusieron ampliar la cantidad de idiomas de bajos recursos que su modelo traduce como parte del programa “No dejar ningún idioma atrás” de Meta AI. Eligieron idiomas que estaban presentes en los artículos de Wikipedia, pero que tenían menos de un millón de oraciones de ejemplo de traducción disponibles en línea.

Este trabajo duplica la cantidad de idiomas disponibles en la iteración anterior.3Se están realizando mejoras en la calidad de la traducción. Los investigadores utilizaron traductores y revisores profesionales para crear un conjunto de datos “semilla” en 39 idiomas y desarrollaron tecnología que les permitió extraer datos web para crear conjuntos de datos paralelos en los idiomas restantes. También prepararon una lista de unas 200 palabras “tóxicas” para cada idioma, para identificar traducciones que podrían, por ejemplo, constituir un discurso de odio.

La participación de especialistas humanos requiere mucho tiempo y es costosa, pero es necesaria. Sin él, los algoritmos se entrenarán con datos de mala calidad generados por la IA, lo que provocará más errores. Luego, los modelos recopilarán este contenido y crearán más texto de mala calidad. Esto ya está sucediendo en el gaélico escocés, donde la mayor parte del contenido en línea es generado por IA, dice William Lamb, lingüista y etnógrafo de la Universidad de Edimburgo en el Reino Unido, que no participó en el programa Meta AI. El gaélico escocés es uno de los idiomas de bajos recursos del Meta cuyo contenido ha sido traducido profesionalmente. La experiencia humana también es importante para los idiomas que carecen de un vocabulario determinado. Por ejemplo, muchas lenguas africanas no tienen términos específicos para conceptos científicos. El proyecto de investigación Decolonise Science utilizó traductores profesionales para traducir 180 artículos científicos a 6 idiomas africanos. Esta iniciativa fue iniciada por Masakhane, una organización de base de investigadores interesados ​​en el procesamiento del lenguaje natural.

See also  “Cards Against Humanity” demanda a SpaceX de Elon Musk por 15 millones de dólares por invadir propiedad fronteriza.

Sin embargo, hay escasez de estos especialistas. Esta es una de las razones por las que los investigadores y las empresas de tecnología incluyen comunidades que hablan estos idiomas, no sólo en el proceso de creación de sus sistemas de traducción automática, sino también durante el uso de estos sistemas, para reflejar cómo las personas reales usan esos idiomas. Investigadores que naturaleza Hablaron para decir que les preocupaba que no hacerlo aceleraría la desaparición de las lenguas y, por tanto, de las culturas asociadas. Sin un compromiso sostenido, el trabajo en traducción automática podría convertirse en otra forma de “ciencia en paracaídas”, en la que investigadores de países de altos ingresos exploten a las comunidades de los países de bajos ingresos.

“Las palabras, las oraciones y la comunicación carecen de valores y creencias codificadas en los idiomas”, dice Sarah Child, especialista en revitalización del idioma en North Island College en la isla de Vancouver en Canadá y miembro del pueblo Kwakwaka'wakw. . A medida que la inteligencia artificial empuja más idiomas al espacio digital, “me preocupa que estemos perdiendo más de nosotros mismos”. Este elemento humano no debe ignorarse en la carrera hacia un sistema de traducción global.



Source Article Link

Leave a Comment