OpenAI ha presentado su capacidad para clonar voces con una notable precisión utilizando sólo 15 segundos de audio como referencia. Esta tecnología, denominada «Voice Engine», se basa en la API de texto a voz existente de la compañía y promete generar habla natural que imita fielmente a la persona original, completando las voces disponibles en su API actual y la función de leer en voz alta.
Desde 2022, OpenAI ha estado desarrollando esta herramienta, con aplicaciones potenciales en asistencia de lectura, traducción de idiomas y apoyo para personas con condiciones de habla repentinas o degenerativas.
A pesar de sus beneficios, obviamente existe una preocupación por el mal uso de la tecnología, especialmente en la creación de contenido deepfake. La compañía está trabajando con socios en Estados Unidos y a nivel internacional para abordar estas preocupaciones de privacidad y riesgo antes de un lanzamiento completo.
Además, OpenAI ha implementado medidas de seguridad, como el marcado de agua para rastrear el origen del audio y la monitorización proactiva del uso del sistema. Se establecerá una lista de voces prohibidas para detectar y prevenir la generación de voces demasiado similares a figuras prominentes.
Usos útiles a la hora de clonar voces
La tecnología ha encontrado aplicaciones iniciales en varios campos, desde la educación hasta la traducción de contenido y la mejora de la prestación de servicios esenciales en entornos remotos. Age of Learning, una empresa de tecnología educativa, ha utilizado Voice Engine para generar contenido de voz preescrito y respuestas personalizadas en tiempo real. Heygen, una plataforma de narración visual basada en IA, utiliza la tecnología para la traducción de videos, manteniendo el acento nativo del hablante original en múltiples idiomas.
OpenAI también está explorando el uso de Voice Engine en contextos clínicos, como ayudar a las personas con condiciones que afectan el habla a recuperar su voz. Un programa piloto en el Norman Prince Neurosciences Institute utilizó la tecnología para restaurar la voz de una paciente joven afectada por un tumor cerebral, utilizando audio de un video escolar como muestra.