MADRID, 15 Feb. (Portaltic/EP) -
Amazon ha presentado el modelo de conversión de texto a voz denominado Big Adaptative Streamable TTS (BASE TTS), el "más grande hasta la fecha" de su estilo, que ha sido entrenado con hasta 100.000 horas de audio de dominio público para obtener capacidades de habla más realistas.
La compañía tecnológica ha investigado formas de mejorar las capacidades de los modelos de conversión de texto a voz, de cara a obtener resultados de audio más realistas y naturales, capaces de imitar cuestiones más complejas en el habla, como las emociones, las frases complejas, las palabras extranjeras o la interpretación de los signos de puntuación.
En este marco, Amazon ha presentado BASE TTS, el modelo de conversión de texto a voz "más grande hasta la fecha", que ha sido entrenado con 100.000 horas de datos de voz de dominio público y 980 millones parámetros en su variante más avanzada, para mejorar su capacidad para pronunciar palabras y oraciones de forma natural, incluso con una entonación compleja.
En concreto, tal y como ha explicado la compañía en un comunicado, se trata de un modelo que utiliza un transformador de prácticamente mil millones de parámetros que convierte textos sin formato en códigos de voz, que ha combinado con un decodificador que convierte códigos de voz en formas de onda. Como resultado, BASE TTS funciona con una arquitectura "simplificada y altamente eficiente" que, según Amazon, se completa con una "novedosa" técnica de tokenización de voz.
Para encontrar una forma de obtener resultados de voz más realistas, los investigadores de Amazon han tomado como ejemplo las "habilidades emergentes" que ofrecen los grandes modelos de lenguaje (LLM) cuando se entrenan con un volumen cada vez mayor de datos, que comienzan a mostrar comportamientos de aprendizaje y resultados mejores exponencialmente.
En este sentido, los investigadores trasladaron esta idea a los modelos de conversión de texto a voz para conseguir un resultado de voz más natural y comprobar cómo evoluciona el comportamiento del modelo, en base al entrenamiento recibido. Para ello, desde Amazon han entrenado BASE TTS con varias variantes.
Tal y como ha detallado la compañía en un artículo sobre el estudio, se ha probado con una variante de BASE TTS pequeña, entrenada con 1.000 horas de datos de audio y 150 millones de parámetros; una variante median, con 10.000 horas de audio de entrenamiento y 400 millones de parámetros; y la variante más grande, con 100.000 horas de entrenamiento de audio y 980 millones de parámetros.
Concretamente, los datos de audio utilizados para el entrenamiento incluían un 90 por ciento de audio en inglés. Igualmente, también se han incluido datos en alemán, holandés y español.
En este marco, los investigadores comprobaron que a partir de la variante mediana del modelo, se comenzó a mostrar una comprensión más avanzada de los textos y una pronunciación y fonética "contextualmente apropiada".
Con todo ello, el modelo BASE TTS es capaz de ofrecer mejores resultados gracias a las "habilidades emergentes" que proporciona el entrenamiento de datos. En concreto, muestra mejoras en frases con sustantivos compuestos, que muestren emociones o que utilicen palabras extranjeras.
Tal y como ha detallado Amazon, el modelo también es capaz de reproducir palabras paralingüísticas -es decir, sonidos-, interpretar de forma correcta los elementos de puntuación, incluidas las preguntas y otras complejidades sintácticas.