Por si no fuera bastante inquietud la generada por OpenAI con sus avances en inteligencia artificial hasta ahora, la compañía da una vuelta de tuerca más a nuestra capacidad de sorpresa con Sora.
Tal como explicó en «X» OpenAI, Sora puede crear videos de hasta 60 segundos con escenas muy detalladas, un movimiento de cámara complejo y múltiples personajes a partir de un texto.
Vamos, que los temores manifestados por actores y guionistas de Hollywood que les llevaron a la huelga no eran infundados y se quedaban cortos. De hecho, no resulta descabellado imaginar un futuro en el que la industria del cine se reduzca a contar con buenos escritores de prompts.
De momento, Sora solo es accesible para algunos elegidos, entre ellos de artistas visuales, diseñadores y cineastas que puedan realizar sugerencias sobre cómo avanzar en el modelo para que sea más útil a los profesionales creativos. Alguien podría pensar que esos artistas están poniéndose la soga al cuello eligiendo el tamaño del nudo y la calidad de la cuerda, pero seamos optimistas.
El caso es que, desde que OpenIA empezó a compartir vídeos realizados con esta herramienta de inteligencia artificial en «X», los ánimos en esta red basculan entre la admiración y el pánico. Y no es para menos.
engendros, pero menos
Como en el caso de la imágenes estáticas, aún nos encontramos con engendros, que causan esa molesta sensación de «valle inquietante».
this could be the «holy shit» moment of AI. OpenAI has just announced Sora, its text-to-video AI model. This video isn’t real, it’s based on a prompt of «a cat waking up its sleeping owner demanding breakfast…» 🤯 https://t.co/xKy3iQBKwT pic.twitter.com/HPm2p1jbgo
— Tom Warren (@tomwarren) February 15, 2024
Sin embargo, la mayor parte de los vídeos que se han compartido muestran una calidad inaudita y, en muchos casos, indistinguible de lo que podría ser un vídeo creado con guionistas, iluminadores, escenógrafos, actores, etc., humanos.
sora y una mujer que pasea por tokio
Sira como ejemplo esta pieza creada a partir del texto: «Una mujer elegante camina por una calle de Tokio llena de luces de neón cálidas y luminosas y carteles animados de la ciudad. Lleva una chaqueta de cuero negra, un vestido largo rojo, botas negras y un bolso negro. ella usa gafas de sol y lápiz labial rojo. camina con confianza y despreocupación. La calle está húmeda, creando un efecto espejo de las luces de colores. muchos peatones caminan”.
O este otro vídeo con indicaciones tan precisas como: «primer plano extremo del ojo de una mujer de 24 años parpadeando, de pie en Marrakech durante la hora mágica, película cinematográfica filmada en 70 mm».
Como vemos, Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. El modelo entiende, no solo lo que el usuario ha pedido en el prompt, sino también cómo existen esas cosas en el mundo físico.
debilidades técnicas y de seguridad
En OpenIA reconocen que el modelo actual tiene debilidades. Puede tener dificultades para simular con precisión la física de una escena compleja y puede no comprender instancias específicas de causa y efecto. «Por ejemplo, una persona puede darle un mordisco a una galleta, pero después, es posible que la galleta no tenga una marca de mordisco», explican.
El modelo también puede confundir los detalles espaciales de un mensaje, por ejemplo, mezclando izquierda y derecha, y puede tener dificultades con descripciones precisas de eventos que tienen lugar a lo largo del tiempo, como seguir una trayectoria de cámara específica.
No hay duda que estas cuestiones técnicas se solucionarán en poco tiempo, las debilidades de seguridad quizás sean otro cantar. Desde la compañía se ponen la venda antes de la herida y afirman que tomarán medidas de seguridad importantes antes de que Sora esté disponible en los productos de OpenAI. «Estamos trabajando con expertos en áreas como la desinformación, el contenido de odio y los sesgos».
En especial en los últimos dos años hemos asistido a avances constantes en inteligencia artificial generativa y todos ellos han tenido una recepción agridulce donde el fiel de la balanza se mueve entre la oportunidades creativas y productivas que ofrecen junto a las perspectivas de reducción de empleo en múltiples sectores.
Sora va un paso más allá y convierte en vídeo algunos de los peores presagios de los trabajadores del sector audiovisual.