MADRID, 7 (Portaltic/EP)
PUBLICIDAD
La compañía tecnológica utiliza USM en YouTube, donde reconoce de forma automática la voz en idiomas ampliamente hablados, pero también en otros con menos usuarios, como el amárico (norte y centro de Etiopía) o el cebuano (Filipinas). Resulta útil, por ejemplo, para la introducción de subtítulos automáticos en los vídeos.
El objetivo de este modelo de lenguaje es dar soporte a los mil idiomas más hablados del mundo, algunos de los cuales tienen menos de 20 millones de hablantes, lo que reduce la cantidad de datos disponibles sobre ellos frente a, por ejemplo, el chino mandarín, el español o el inglés.
USM tiene 2.000 millones de parámetros y ha sido entrenado con 12 millones de horas de voz y 28.000 millones oraciones en texto, en más de 300 idiomas.
Lo más destacado es que en él han utilizado "un gran conjunto de datos multilingües sin etiquetar para entrenar previamente al codificador del modelo y ajustar un conjunto más pequeño de datos etiquetados", lo que permite reconocer idiomas subrepresentados, como ha destacado en su blog de Google Search.
El modelo de entrenamiento utilizado también ha demostrado ser "efectivo para adaptarse a nuevos lenguajes y datos", afirman desde la compañía.
PUBLICIDAD
SOPORTE PARA MIL IDIOMAS
Para lograr el objetivo de "modelar la voz de los próximos mil idiomas", Google ha optado por una arquitectura de codificador-decodificador estándar y un sistema de aprendizaje autosupervisado ajustado.
La primera parte de los trabajos con USM parte del aprendizaje autosupervisado y abarca una gran cantidad de archivos de voz de cientos de idiomas, que puede complementarse de forma opcional con un preentrenamiento de datos de texto adicionales, en caso de que los haya, lo que mejora el rendimiento del USM.
"El modelo introduce un módulo codificador adicional para tomar texto como entrada y capas adicionales para combinar la salida del codificador de voz y el codificador de texto, y entrena el modelo conjuntamente en datos de voz sin etiquetar, voz etiquetada y texto", detallan desde Google.
Posteriormente, se ajustan las tareas, como pueda ser la traducción automática de voz, con una pequeña cantidad de datos supervisados. Según Google, "con el conocimiento adquirido durante la capacitación previa, los modelos USM logran una buena calidad con solo una pequeña cantidad de datos supervisados de las tareas posteriores".
"Creemos que la arquitectura del modelo base y el proceso de capacitación de USM constituyen una base sobre la cual podemos expandir el modelado de voz a los próximos mil idiomas", concluye la compañía.