La empresa ElevenLabs ha presentado su avanzado generador de voz impulsado por Inteligencia Artificial (IA). Esta herramienta es capaz de clonar voces y hacerlas hablar en hasta 30 idiomas diferentes, incluyendo ucraniano, coreano, sueco, árabe, entre otros.
El nuevo modelo Multilingual v2 de ElevenLabs promete producir audio «emocionalmente rico» en una amplia variedad de lenguas. La compañía ofrece dos herramientas de voz por IA: un modelo de texto a voz y el «VoiceLab», que permite a los usuarios clonar una voz introduciendo fragmentos de su propio discurso —o de otros— para crear un tipo de cono de voz.
La compañía ha lanzado este servicio en su Web, permitiendo que cualquiera simplemente escriba el texto en su idioma original para escuchar la voz traducida. Aunque es difícil evaluar la precisión de cada voz acentuada, el discurso parece natural, con pausas ocasionales entre frases.
Desde su lanzamiento, ElevenLabs ha enfrentado controversias. Su plataforma beta inicial fue utilizada por usuarios para hacer que celebridades dijeran guiones racistas y misóginos. Posteriormente, la empresa implementó medidas para garantizar que los usuarios sólo puedan clonar su propia voz. Ahora, para verificar la autenticidad, los usuarios deben responder a un captcha de texto que se compara con la muestra de voz original.
Mati Staniszewski, cofundador de ElevenLabs, expresó su deseo de eliminar las barreras lingüísticas con la ayuda de la IA. Además de las capacidades lingüísticas, esta empresa ha anunciado que su tecnología de clonación de voz ya no está en fase beta y busca colaborar con empresas de medios. La firma ha promocionado su tecnología como una solución para crear audiolibros, videos y personajes no jugables en videojuegos con voz.
A pesar de los avances en la tecnología de voz por IA, sigue habiendo preocupaciones en la industria sobre su impacto en el trabajo de los actores de voz. Sin embargo, empresas como Lukeman Literary ven la narración por IA como una bendición para los escritores independientes debido a su coste reducido en comparación con la narración humana.