Clonar la voz humana de forma fidedigna con una muestra de tan solo 15 segundos. Eso es lo que consigue la última herramienta de inteligencia artificial creada por OpenAI, la firma que deslumbró al mundo con ChatGPT, su programa de lenguaje de IA generativa.
Por: El País
“Hoy compartimos información y resultados preliminares de una vista previa a pequeña escala de un modelo llamado Voice Engine, que utiliza texto y una única muestra de audio de 15 segundos para generar un habla natural que se asemeja mucho al hablante original. Es notable que un pequeño modelo con una sola muestra de 15 segundos pueda crear voces emotivas y realistas”, ha indicado la firma que dirige Sam Altman a través de un comunicado.
Todo lo que tiene que hacer el usuario es aportar esa muestra. Una vez que el programa Voice Engine la tenga, puede hacer que lea con el timbre y tono de esa voz cualquier texto que se le facilite. El texto ni siquiera tiene que ser en el mismo idioma. Un hablante de español puede facilitar la muestra en su lengua y luego pedir al programa que lea con su voz un texto en inglés, en chino o en otros idiomas.
También puede usarse directamente para la traducción de audios. Es más, cuando se utiliza para traducir, Voice Engine conserva el acento nativo del hablante original: por ejemplo, al generar inglés con una muestra de audio de un hablante de francés, se produciría un habla con acento francés.
Puedes leer la nota completa en El País