«Fugatto» es un nuevo modelo de inteligencia artificial recientemente presentado por NVIDIA que permite la creación y modificación de sonidos, música y voces utilizando indicaciones textuales o combinaciones de texto y audio. Esta herramienta fue descrita como una «navaja suiza para el sonido» y ofrece capacidades de generación y transformación de audio que abren nuevas posibilidades en campos como la producción musical, los videojuegos y la educación.
Desarrollado por un equipo internacional de investigadores, Fugatto emplea 2,5 mil millones de parámetros y fue entrenado con GPU NVIDIA H100 Tensor Core. El modelo tiene la capacidad de crear desde piezas musicales hasta modificaciones precisas de voces, como ajustar el acento o el tono emocional. Incluso puede generar sonidos inéditos, como instrumentos que imitan sonidos de animales, gracias a la técnica de combinación de instrucciones conocida como ComposableART.
Ejemplo de cómo funciona Fugatto, puedes verlo en este video publicado por la propia NVIDIA:
Innovaciones y usos de Fugatto
Entre los empleos de este modelo de IA, un ejemplo es el campo de los videojuegos. Desarrolladores pueden crear efectos de sonido dinámicos que se adapten a las acciones del jugador. También se pueden crear materiales personalizados para el aprendizaje de idiomas con cualquier voz que el usuario elija, ya sea de un ser querido o un personaje ficticio. Y en la producción musical, este modelo facilita la creación de prototipos y ediciones rápidas, explorando diferentes estilos, voces e instrumentos en un tiempo reducido.
Otra de las capacidades más llamativas de Fugatto es la creación de paisajes sonoros en evolución, como una tormenta que avanza con truenos y se transforma en un amanecer con el canto de los pájaros. Este nivel de control detallado en el desarrollo de sonidos ofrece una herramienta inédita para artistas, educadores y creadores de contenido.
El proyecto, que requirió más de un año de desarrollo, combinó millones de muestras de audio y datos para entrenar al modelo en una amplia variedad de tareas. Aunque NVIDIA no ha anunciado si Fugatto estará disponible para el público general, sólo el hecho de su presentación posiciona a la compañía en un plano de ‘referente’ en el ámbito de la inteligencia artificial generativa aplicada al audio.