Meta recurre a lecturas de múltiples idiomas de la Biblia para entrenar a sus modelos de voz multilingüe masiva (MMS). Este tipo de tecnología podría usarse para aplicaciones de realidad virtual y realidad aumentada en el idioma preferido de una persona.
Los modelos de voz multilingüe masiva (MMS) amplían la tecnología de texto a voz y voz a texto de alrededor de 100 idiomas a más de 1.100, más de 10 veces más que antes, y también pueden identificar más de 4.000 idiomas hablados, 40 veces más que con tecnologías anteriores. Además, Meta ha anunciado la apertura de sus modelos y códigos para que la comunidad de investigadores pueda colaborar con esta tarea.
«Muchos de los idiomas del mundo están en peligro de desaparecer, y las limitaciones de la tecnología actual de reconocimiento y generación de voz solo acelerarán esta tendencia. Queremos facilitar que las personas accedan a la información y usen dispositivos en su idioma preferido», explican desde la compañía de Mark Zuckerberg.
usos de la tecnología de voz de meta
Hay muchos casos de uso para la tecnología del habla, desde la tecnología de realidad virtual y aumentada hasta los servicios de mensajería, que se pueden usar en el idioma preferido de una persona y pueden entender la voz de todos.
La recopilación de datos de audio para miles de idiomas fue el primer desafío al que se enfrentó Meta porque los conjuntos de datos de voz existentes más grandes cubren 100 idiomas como máximo. Para superar esto, ha recurrido a textos religiosos, como la Biblia, que han sido traducidos a muchos idiomas diferentes y cuyas traducciones han sido ampliamente estudiadas para la investigación de traducción de idiomas basada en texto.
Estas traducciones tienen grabaciones de audio disponibles públicamente de personas que leen estos textos en diferentes idiomas. Como parte del proyecto MMS, Meta ha creado un conjunto de datos de lecturas del Nuevo Testamento en más de 1.100 idiomas, que proporcionaron un promedio de 32 horas de datos por idioma.
uso controvertido de la biblia
«Al considerar grabaciones no etiquetadas de varias otras lecturas religiosas cristianas, aumentamos el número de idiomas disponibles a más de 4,000. Si bien estos datos provienen de un dominio específico y a menudo son leídos por hablantes masculinos, nuestro análisis muestra que nuestros modelos funcionan igual de bien para voces masculinas y femeninas. Y aunque el contenido de las grabaciones de audio es religioso, nuestro análisis muestra que esto no sesga el modelo para producir un lenguaje más religioso«, explican.
Sin embargo, no todos coinciden con esta valoración. Chris Emezue, investigador de Masakhane, una organización que trabaja en el procesamiento del lenguaje natural para lenguas africanas, explica a MIT Technology Review que, «aunque el alcance de la investigación es impresionante, el uso de textos religiosos para entrenar modelos de IA puede ser controvertido. La Biblia tiene muchos prejuicios y tergiversaciones».