La imagen de arriba la ha pintado una inteligencia artificial (IA) cuando se le ha pedido que dibuje «el mundo en 2050”. Es muy difícil determinar su valor artístico, pero el prospectivo es nulo. Las inteligencias artificiales que pintan imágenes mediante difusión no son herramientas que sirvan para explorar ni predecir el futuro. Solo pintan trazos virtuales, que no es poco.
En los últimos meses, se han visto muchos artículos, algunos sensacionalistas y catastrofistas, sobre el triste o esperanzador futuro que pinta la inteligencia artificial. Este es un futuro basado en la ficción, no muy diferente al que pueda aparecer en una novela. Es decir, no pueden predecir.
Las imágenes catastróficas de las IA vienen del pasado, no del futuro
Hace unos meses se recogió en Nobbot cómo se imagina el infierno la IA. No es de extrañar que el dibujo saliente, caracterizado por el rojo, el fuego y los cuerpos en la oscuridad, se parezcan bastante a lo que los pintores humanos ya habían dibujado. La IA no pinta en el vacío, porque fue entrenada, de hecho, con cuadros famosos del pasado.
Las imágenes que crea no vienen del futuro porque, formalmente, este no existe aún y la información no viaja hacia atrás en el tiempo. Todo lo que estos sistemas de generación presentan son elementos que ya hemos imaginado antes y forman parte de nuestro corpus de datos. Ni siquiera sirven para imaginar futuros fuera de la ficción por la forma en que funciona esta tecnología.
¿Cómo funcionan las IA que dibujan?
MidJourney, Dall·E 2 y Stable Diffusion son herramientas que componen imágenes usando tres elementos. El primero es un espacio de ruido de partida. Algo así como un lienzo en blanco, pero, en lugar de vacío, incorpora motas de negro distribuidas al azar. Un mapa de ruido no muy diferente al que mostraban los antiguos televisores sin sincronizar.
Esa es la plantilla sobre la que se empezará a dibujar. Además de esta, dentro del espacio latente del motor de dibujo se almacenan todas las relaciones entre texto e imágenes que la IA ha sabido extraer de su entrenamiento. Es la manera que tiene de saber que un gato tiene forma de gato, que el Sol es amarillo y que las personas tienen rostro. El espacio latente es donde se almacenan características visuales fundamentales de las palabras.
Por último, está el prompt o línea de comando que se le entrega al sistema. La orden por la que se le dice “dibújame el futuro”, una ciudad o un reloj de bolsillo. Es la forma que tienen las personas de interactuar con la herramienta. Y es cuando ocurre la ‘magia’. El prompt es interpretado por la IA usando el espacio latente y empieza su labor de difusión sobre el lienzo casi blanco.
Como el ruido de origen es aleatorio y la difusión se realiza de forma ídem, estas IA no pueden pintar nunca dos futuros iguales. Esto es una primera señal de alerta ante sus imágenes como contenido válido en prospectiva. Observa en el pequeño vídeo de arriba cómo la pared de ladrillos emerge de un espacio de ruido. O la imagen de abajo con un mapa mundial que no llega a ser realista.
no tienen por qué expresar verdades
En septiembre de 2022 se preguntó a la IA de dibujo Midjourney quién dominará el mundo en los próximos 100 años. Y a GPT-3, la IA que escribe textos, qué pensaba un robot sobre la política de España. Aunque son un divertido ejercicio para ver cómo han sido entrenados estos modelos, el resultado que producen no tiene ningún sentido predictivo ni prospectivo. Ni tiene por qué tenerlo.
Como explicó Carlos Santana Vega (DotCSV), sistemas como GTP-3 generan texto que “en la forma, no en el fondo, parece coherente”. Sigue las normas de puntuación, no comete errores gramaticales y tiene sentido aparente. Pero no tiene por qué decir cosas que sean verdad, porque no es así como funcionan. “GPT-3 no tiene por qué darte datos correctos”, y las IA de dibujo tampoco.
Y no es una cuestión de sesgos. Ni siquiera un GPT-3 alimentado con verdades corroboradas y metaestudios científicos válidos tiene por qué crear textos que sean verdaderos, porque su utilidad radica en poner palabras unas detrás de otras de forma coherente. No resume, por ejemplo, ni es capaz de sintetizar sin error. Lo mismo ocurre con las imágenes: su output no tiene por qué ser fiable.
Una forma de ver estos sistemas es como un conjunto ilimitado de dados. Cada vez que pides un dibujo o un texto, se lanzan dados para ver qué palabra o pincelada poner a continuación. El resultado es ruido ordenado de forma que tenga sentido visual y estético, pero carente por completo del contenido que lo haría útil para la futurología.
En el caso de las herramientas de generación de imagen, el resultado es aún más ‘artístico’, si es que se puede hacer uso de esa expresión, sobre todo con parámetros de aleatoriedad y ruido altos. En generación de imagen IA, el parámetro ‘temperatura’ indica el nivel de creatividad o manga ancha que se le da a la inteligencia artificial para salirse del prompt. Por defecto, es alto, lo que indica que ni siquiera la imagen mostrada hace referencia directa al texto.
entendiendo los alcances de la tecnología de generación de imágenes
Como destacaron en ‘Retina’, la generación de ficciones tiene bastante poder en la forma en que se percibe el mundo. Occidente lleva décadas temiendo a las máquinas por la manera en que las tratamos en relatos apocalípticos, mientras que países como Japón cada vez las abrazan más (de modo literal) por la forma en que las integran en sus relatos costumbristas.
Como ya ocurriese en ‘Tomorrowland’, la película protagonizada por George Clooney, es muy probable que nuestra incapacidad para dibujar un futuro amable nos conduzca de cabeza a una distopía. Según Elisabet Roselló, fundadora de la consultora Postfuturear, la visión optimista sobre el futuro se truncó hace 50 años cuando empezamos a dudar sobre la posibilidad de un porvenir brillante.
“El futuro es una construcción social”, comentó Roselló en su charla TEDxMadrid, que pone el foco en las “imágenes de futuro: iconos, arquetipos o elementos más pequeños recurrentes en ciertos colectivos”. Por ejemplo, coches voladores y robots asesinos.
Los estudios de futuro, también llamados prospectiva, son una disciplina con cinco décadas de trayectoria que prepara a la humanidad para los cambios que vendrán. Si la humanidad parte de imágenes caóticas, distópicas y posapocalípticas para adaptarse a este futuro, bien podríamos desencadenarlo. Se trata del fenómeno llamado ‘profecía autocumplida’.
Como ya ocurriese en la película citada, y así aparece reflejado en el libro ‘Cuatro futuros’ de Peter Frase, resulta imperativo que podamos imaginar futuros a los que merezca la pena tender. Si las imágenes de inteligencia artificial solo muestran caos, qué menos que entender que vienen del pasado, no del futuro.
En Nobbot | GPT-3: la IA con la mayor base de datos de la historia
Imágenes | M. Martínez Euklidiadas, Spamrakuen, M. Martínez Euklidiadas