Nvidia ha desarrollado nuevos modelos de inteligencia artificial (IA) para hacer que las voces artificiales emulen con mayor expresividad y realismo el habla humana como su ritmo, entonación o timbre, y que son incluso capaces de llevar a cabo narraciones y locuciones como un actor de doblaje.
Las nuevas herramientas de Nvidia acercan las herramientas automáticas al ser humano a través de nuevos modelos de síntesis del habla, como ha anunciado la compañía y como presentará durante el evento Interspeech 2021 centrado en tecnologías de habla.
La tecnología de Nvidia se ha optimizado para que funcione de forma eficiente en las unidades gráficas (GPU) de la compañía, y además se ha desarrollado mediante las herramientas de código abierto del kit NeMo.
Para su desarrollo, la compañía ha conseguido que su IA lleve a cabo la narración de una serie de vídeos que tratan precisamente sobre el potencial de la tecnología, I am IA, y que originalmente estaba narrada por una persona real.
El sistema se basa en el uso de un modelo, RAD-TTS, que convierte el texto en habla utilizando para ello un audio de una persona hablando, convirtiendo el texto a la voz de la persona pero entonando de forma expresiva, como un actor de doblaje.
Según Nvidia, las funciones del modelo pueden utilizarse también en los videojuegos para ayudar a las personas con discapacidad o para traducir la propia voz a otro idioma.
La compañía afirma que la tecnología incluso se puede reproducir la voz de personas cantando, no solo con la melodía sino también con su emoción a la hora de interpretar una canción.