EMO, abreviatura de «Emote Portrait Alive», es una innovadora tecnología de inteligencia artificial desarrollada por investigadores chinos del Instituto de Computación Inteligente de Alibaba Group. Sí, la mismísima empresa madre de AliExpress. Y su principal función es animar fotos estáticas de retratos, permitiendo que los sujetos representados en ellas hablen o canten de manera realista.
Esta tecnología se distingue por su enfoque único en la animación. A diferencia de los métodos convencionales, EMO convierte directamente las ondas de audio en cuadros de video, sin necesidad de modelos intermedios en 3D o puntos de referencia en el rostro, capturando movimientos faciales sutiles y estilos faciales individuales asociados con el habla natural.
La IA de EMO utiliza un modelo de difusión para generar imágenes sintéticas realistas. Se entrenó utilizando un vasto conjunto de datos de videos de cabezas parlantes de diversas fuentes, lo que le permite producir videos de alta calidad que conservan la identidad del sujeto y transmiten expresividad. Además de generar videos de conversación, EMO también puede animar retratos cantantes, sincronizando las formas de la boca y las expresiones faciales con las vocales para crear videos de canto en diferentes estilos y duraciones.
EMO desde un audio logra microexpresiones realistas
La tecnología de este proyecto es un avance importante en la animación artificial, ya que convierte fotos completamente estáticas en vivos videos donde los sujetos parecen hablar o cantar de manera realista, incluso con microexpresiones. Esto se logra convirtiendo directamente el audio en fotogramas de video, lo que permite capturar de manera precisa las expresiones faciales y los movimientos.
Los investigadores han publicado un artículo científico en la plataforma arXiv para explicar cómo es la generación de videos explícitamente desde el audio que se le quiere adjuntar, incluyendo una serie de ejemplos audiovisuales que involucran a una Audrey Hepburn cantando o una Mona Lisa haciendo un monólogo de Shakespeare. Incluso al guasón de Joaquin Phoenix, pero diciendo una línea de diálogo de la versión del personaje de Heath Ledger, tal como te mostramos en nuestra cápsula del Express (al inicio del artículo).
Sin embargo, aunque EMO ofrece estas posibilidades para la creación de contenido de video personalizado, también presenta preocupaciones éticas, como la suplantación de identidad o la difusión de información errónea. Es fundamental abordar la implementación de esta tecnología con precaución y asegurar que se establezcan cánones adecuados para abordar estas preocupaciones.