¿Quién le enseña a hablar a Siri? Y no, no es solo Apple

siri“Siri. Ejem. Quiero ver el capítulo 73 de Doble Tentación”. La frase, reconocida en castellano por cualquier Apple TV, entraña más información de la que parece. ¿Ha dicho 63 o 73? ¿Qué es Doble Tentación? ¿Qué significa ejem? Y la pregunta más importante de todas, ¿cómo llega la inteligencia artificial de Siri a pensar este tipo de cuestiones? En realidad, no lo hace. Al menos, no piensa en el sentido literal de la palabra. 

Así es el complejo sistema con el que un ejército de transcriptores está alimentando el pensamiento de Siri. Y así nos lo cuentan desde uno de estos equipos que ha enseñado a Siri a hablar nuestra lengua.

Aprendiendo a hablar

La fórmula no es secreta y desde Apple se ha explicado en varias ocasiones. Sin embargo, no deja de ser sorprendente entender el proceso que se esconde después de las mágicas palabras de la inteligencia artificial. A grandes rasgos, muy a grandes rasgos, toda IA funciona de forma parecida. Se trata de un sistema que, de forma automática, reconoce patrones (imágenes, símbolos, sonidos…) y realiza una serie de operaciones.

Estas operaciones son cada vez más complejas y coquetean ya con el autoaprendizaje. Es decir, máquinas que aprenden solas. Pero, de momento, la inteligencia artificial necesita de un equipo humano que repase su trabajo y corrija sus errores (que son muchos). Así, poco a poco, se perfecciona el sistema y Siri aprende a hablar.

De momento, el sistema inteligente de reconocimiento de voz de Apple habla 21 idiomas de 36 países. El último en sumarse ha sido el dialecto de Shangai, derivado del chino wú. El inglés, el francés y el alemán fueron parte de la primera versión de Siri y el castellano lo entiende y lo habla desde 2012.

siri

Un largo proceso de aprendizaje

El pasado mes de marzo, Alex Acero, director del equipo de reconocimiento de voz en Apple, explicaba en una entrevista el proceso educativo que seguía Siri.

  1. Apple selecciona a un conjunto de personas con diferentes voces y acentos (del mismo idioma) que leen y graban una serie de ejemplos.
  2. Estos ejemplos se transcriben después en el lenguaje de programación de Siri.
  3. Este primer set de datos se usa para entrenar el algoritmo de Siri, que intenta predecir respuestas y que es corregido cada vez que se equivoca.
  4. Apple incluye el idioma en el sistema de dictado por voz de iOS y macOS para, de forma anónima, recopilar miles de ejemplos reales de voces, acentos y variedades del mismo idioma.
  5. Los ejemplos reales tienen ruido de fondo, risas, carraspeos, errores de pronunciación… Aquí es donde se empieza a volver realmente difícil.
  6. Apple subcontrata grandes equipos de personal que transcribe estos audios y corrige, da el visto bueno o rechaza las respuestas de Siri.
  7. Se lanza la primera versión comercial de Siri en el idioma seleccionado.
  8. El proceso se repite una y otra vez para perfeccionar el reconocimiento de voz con más ejemplos reales y corregir errores que se van detectando con el uso.

Aquí, en esta última fase, es donde está la versión española de Siri. El trabajo, tal como nos cuenta una fuente anónima que ha formado parte de uno de estos últimos equipos de transcriptores/correctores, es faraónico.

siri

El capítulo 73 de Doble Tentación

Seis o siete salas, cada una con un equipo de hasta medio centenar de personas trabajando a destajo para pulir a Siri. Cada trabajador repasa, cada día, un mínimo de 1.100 ejemplos reales recogidos de iPhones, iPads y Apple TVs. Ejemplos tan reales como “Siri. ¿Voy a tener novio?” o el ya famoso episodio del reality show chileno Doble Tentación.

“Siri. Ejem. Quiero ver el capítulo 73 de Doble Tentación”. Volviendo sobre la frase del principio, nos explican todo lo que esconde. El ejem no puede ser reconocido por Siri. Si lo hace, hay que señalarle que se ha equivocado con la respuesta y descartarla. Algo parecido pasa con el número. Si reconoce el 73 como número, no hay problema. Si reconoce otro, por ejemplo, 63, se debe decir a Siri que se ha equivocado, pero sin descartar la respuesta, para que sirva de entrenamiento para el algoritmo.

La misma frase esconde también un problema fonético. En función de dónde haya sido pronunciada, puede leerse con fonema ce /?/ o fonema se /s/. En este caso, Siri tiene que aprender que, escuche lo que escuche, el título que tiene que buscar es Doble Tentación. Por último, hay una cuestión de marca y títulos. Los transcriptores tienen que asegurarse que los nombres registrados son reconocidos por Siri tal como aparecen en las bases de datos oficiales. En este caso, las dos palabras irían con mayúscula y tentación, acentuada.

1.100 entradas de voz al día dan para mucho. Algunas son ruidos, grabaciones involuntarias o sonidos ininteligibles. Otras son tan complejas como personas que rezan el rosario en busca de una respuesta divina, gente en busca del vídeo pornográfico más fetichista o el típico gracioso que quiere poner a Siri a prueba con una operación matemática imposible.


Pensándolo bien, no es de extrañar que a Siri (y a cualquier sistema de reconocimiento de voz) le cueste entendernos. Por eso, de momento, el software de Apple necesita de un montón de inteligencias humanas que le enseñen hablar. Personas que se pasen día tras día etiquetando y repasando las respuestas de un trozo de código, y aprendiendo, al mismo tiempo, a pensar un poco como esas máquinas que todavía no son tan inteligentes como creemos.

En Nobbot | El iPhone se reformula para siempre

Imágenes: Apple, Pixabay

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *