Post Format

La nueva red neuronal de la IA de Samsung puede hacer video de rostros que hablan, incluso partiendo de un cuadro

Leave a Reply

Nuestro grave problema está a punto de empeorar: los ingenieros de Samsung ahora han desarrollado cabezas parlantes realistas que pueden generarse a partir de una sola imagen, por lo que la inteligencia artificial puede poner palabras en boca de la Mona Lisa.

Los nuevos algoritmos, desarrollados por un equipo del Centro AI de Samsung y el Instituto de Ciencia y Tecnología de Skolkovo, ambos en Moscú funcionan mejor con una variedad de imágenes de muestra tomadas desde diferentes ángulos, pero pueden ser bastante efectivos con una sola imagen para trabajar De, incluso una pintura.

El nuevo modelo no solo puede funcionar a partir de una base de datos inicial más pequeña de imágenes, sino que también puede producir videos generados por computadora en menos tiempo, según los investigadores que se encuentran detrás.

Y si bien hay todo tipo de aplicaciones geniales para las que se podría usar la tecnología, como poner una versión ultra realista de ti mismo en la realidad virtual, también es preocupante que se puedan producir secuencias de video completamente falsas desde tan solo una imagen.

Lo de Samsung asombra y asusta

«Dicha capacidad tiene aplicaciones prácticas para la telepresencia, que incluyen videoconferencia y juegos multijugador, así como la industria de los efectos especiales«, escriben los investigadores en su artículo.

El sistema funciona entrenándose a sí mismo en una serie de características faciales que pueden ser manipuladas. Gran parte de la capacitación se realizó en una base de datos pública de más de 7,000 imágenes de celebridades, llamada VoxCeleb, además de una gran cantidad de videos de personas que hablan con la cámara.

Donde este nuevo enfoque mejora en el trabajo anterior es enseñando a la red neuronal cómo convertir características faciales históricas en video en movimiento de apariencia realista muchas veces. Ese conocimiento puede luego implementarse en algunas imágenes (o solo en una imagen) de alguien que la IA nunca ha visto antes.

El sistema hace uso de una red neuronal de convolución, un tipo de red neuronal basada en procesos biológicos en la corteza visual animal. Es especialmente hábil para procesar pilas de imágenes y reconocer lo que hay en ellas: la «convolución» esencialmente reconoce y extrae partes de las imágenes (también se usa en búsquedas de imágenes en la web y en tecnología de autos con auto-conducción, por ejemplo).

Realismo perfecto

Al igual que otras herramientas de generación de caras impulsadas por la inteligencia artificial que hemos visto, la última etapa en el proceso comprueba el «realismo perfecto«: técnicamente un modelo generativo adversario. Cualquier fotograma que parezca demasiado extraño o no natural se corta y renderiza nuevamente, dejando un video final de mejor calidad.

Esta técnica logra superar dos grandes problemas en las cabezas parlantes generadas artificialmente: la complejidad de las cabezas (con bocas, cabello, ojos, etc.) y nuestra capacidad para detectar fácilmente una cabeza falsa (las caras de los personajes están entre los elementos más difíciles para los videojuegos). diseñadores para acertar, por ejemplo).

El sistema, y ​​otros como este, están obligados a mejorar a medida que los algoritmos mejoran y los modelos de entrenamiento se vuelven más eficientes, y eso significa un conjunto de preguntas completamente nuevo sobre si puede confiar en lo que está viendo o escuchando si está en formato digital.

En el lado positivo, su película favorita y sus estrellas de televisión nunca tendrán que envejecer y morir: una IA similar a este pronto será lo suficientemente inteligente como para producir actuaciones totalmente realistas con solo unas pocas fotografías, y también en un tiempo récord.

0

Leave a Reply

Required fields are marked *.