Uno de los grandes desafíos para generar un modelo de lenguaje mediante la inteligencia artificial es ayudar a la computadora a comprender cómo el contexto en el que se utilizan las palabras cambia su significado.
Con este objetivo, el supercomputador MareNostrum ha empezado a recibir la ingente cantidad de datos provenientes del Archivo Web de la Biblioteca Nacional de España y que será la base para generar un modelo del lenguaje del español y de otras lenguas del estado. El responsable de realizar esta tarea es el Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC) por encargo de la Secretaría de Estado para el Avance Digital (SEAD). El MareNostrum, que ya va por su versión 5, será capaz de realizar un máximo de 200 mil billones de operaciones por segundo y la fecha prevista para su puesta en marcha el 31 de diciembre de 2020.
modelos de lenguaje e inteligencia artificial
Los modelos del lenguaje reproducen el uso de la lengua y permiten conocer el significado real de las palabras, incluso de las frases enteras, ya que los datos están contextualizados y tienen más información, más sentido. Esto permite desambiguar el sentido de las palabras (por ejemplo, distinguir el sentido de brutal en un brutal asesinato y la serie te gustará. Es brutal). También permite interpretar el sesgo ideológico, y abre la puerta a abordar la ironía, el sentido figurado y enriquecer los sistemas de inteligencia artificial con sentido común.
Precisamente ese es el gran reto al que se enfrentan los investigadores. Ramón López de Mántaras, director del Instituto de investigación en Inteligencia Artificial y coautor, junto al investigador del CSIC Pedro Meseguer, del libro “¿Qué sabemos de inteligencia artificial”, explica a Nobbot que «el gran escollo con el que nos encontramos a la hora de construir máquinas inteligentes es la dificultad de dotarlas de sentido común».
«El vasto conocimiento que todos los humanos tenemos se denomina de sentido común y viene de nuestra experiencia con el mundo, desde que nacemos hasta que somos adultos, permitiéndonos comportarnos de manera inteligente en situaciones muy diversas. Sin embargo –añade- este tipo de conocimiento es difícil de proporcionar a un ordenador», añade López de Mántaras.
múltiples aplicaciones
Las aplicaciones del modelo de lenguaje en el que trabajan el BSC y la BNE, son múltiples, desde la traducción automática, a la ciberseguridad, hasta la descripción del contenido de un cuadro del siglo XV hecha por un robot. Ahora bien, modelos capaces de generar esta revolución requieren de unos recursos computacionales y de datos que sólo unas pocos centros y compañías, como Google o Facebook, tienen.
La labor encargada al BSC es doble: el transporte de los datos al supercomputador y su procesado para generar el modelo del lenguaje. Desde hace unas semanas MareNostrum ha iniciado el almacenaje de los contenidos, tras el desarrollo de un proceso de extracción de los datos textuales del archivo web de la biblioteca, de modo que ha sido posible transferir los contenidos rápidamente al BSC. Y es que el transporte de esta ingente cantidad de datos suponía uno de los principales retos de la iniciativa. En estos momentos el supercomputador tiene almacenado 45 terabytes.
El siguiente paso será el procesamiento de estos datos para generar modelos del lenguaje a través de las tecnologías del procesamiento del lenguaje natural. Este recurso ya existe para el inglés, siendo el más conocido Google Bert, que ha supuesto un antes y un después en el procesamiento del lenguaje natural. El modelo en el que trabaja el BSC destaca de otras iniciativas de modelos del español por la cantidad, calidad y variedad de los datos, lo que hace que sea más preciso y de uso más transversal.
El Archivo de la Web Española es la colección formada por los sitios web con dominio .es (incluidos blogs, foros, documentos, imágenes, vídeos, etc.) más todos aquellos, considerados patrimonio documental, incluidos en otros dominios que se recolectan con el fin de preservar el patrimonio documental español en Internet y asegurar su acceso.