Las personas somos seres sociales. Necesitamos interactuar con los demás y comunicarnos para expresar nuestros sentimientos, ideas y conocimientos. La palabra, hablada o escrita, es una de las vías más habituales para establecer esa comunicación. Pero no la única.
Lo habitual es que nuestros cinco sentidos participen de ello para enriquecer la información que intercambiamos con los demás.
Estas capacidades, sin embargo, no las poseen todas las personas. Las hay que no pueden ver, oír o hablar. Algo que no les impide comunicarse y que, gracias a la tecnología, ha dejado en muchos casos de ser una dificultad. Esto lo sabe muy bien Dimitri Kanevsky.
Este científico se quedó sordo a una edad muy temprana, con apenas un año. Sus propias limitaciones fueron las que le impulsaron a interesarse por el desarrollo de sistemas de reconocimiento de voz para hacerse entender. En un encuentro celebrado en Madrid reconoce que conseguirlo era su sueño, y poco a poco lo ha ido construyendo.
Palabras para sordos
Dimitri Kanevsky formó parte del equipo de investigadores del centro Watson de IBM. Allí, y como integrante del departamento de algoritmos de habla y lenguaje, desarrolló el primer sistema de reconocimiento de voz ruso, su idioma natal. Ahora trabaja en el proyecto Sound Understanding de Google, en el que se explora cómo las interfaces táctiles y visuales se pueden utilizar para generar representaciones alternativas al sonido.
“Durante los últimos cinco años he trabajado para desarrollar una aplicación que es capaz de convertir la voz en texto y que lo hace en tiempo real”, cuenta el investigador. El resultado es Live Transcribe (Transcripción Instantánea), una herramienta con la que ya puede mantener una conversación fluida en inglés, a pesar de su marcado acento ruso. “Ahora puedo entender a la gente y que ellos me entiendan a mí, puedo hablar con mis nietas sin que mi mujer tenga que ejercer de intermediaria”, relata con una gran sonrisa.
Lo demuestra empleando Live Transcribe durante su intervención en las oficinas que Google tiene en España. La versión que utiliza en la presentación la ha entrenado él mismo para que sepa reconocer su voz y la manera en la que articula las palabras. Una personalización que es posible gracias a técnicas de machine learning e inteligencia artificial (IA), y en la que Google está trabajando con la colaboración de voces voluntarias.
El funcionamiento es muy sencillo: con la aplicación instalada hay que empezar a hablar y la propia plataforma se encarga de realizar la transcripción mostrándola en la pantalla del dispositivo. El interlocutor solo tiene que leerla para saber lo que una persona con dificultades en el habla quiere transmitirle. De momento solo reconoce el inglés, pero Kanevsky ha adelantado que esperan que en breve esté disponible en 70 idiomas.
IA para el reconocimiento de voz
Live Transcribe forma parte de una iniciativa más ambiciosa de Google: el proyecto Euphonia, en el que se emplea la IA para mejorar las habilidades de las máquinas en la comprensión de diferentes patrones del habla. Disfunciones que pueden estar causadas por trastornos neurológicos, como la escleroris lateral amiotrófica (ELA), lesiones cerebrales traumáticas o párkinson.
Para conseguir esto, el software de Google convierte las muestras de voz previamente grabadas en espectogramas (representaciones visuales del sonido). Gracias a ellos dispone de datos sobre las particularidades del discurso de las personas que, por ejemplo, padecen ELA. Así es como consiguen entrenar a los sistemas informáticos para que aprendan a identificar las palabras que se desvían de los estereotipos más comunes.
Su propósito es enriquecer el reconocimiento de la voz con otras variables que intervienen en cualquier acto de comunicación, como los gestos o sonidos. De ahí que desde el proyecto Euphonia ya estén entrenando a algoritmos de IA para incorporarlos a los comandos de voz. Herramientas como Google Home o el envío de mensajes de texto a través del habla serían así especialmente útiles para personas con este tipo de disfunciones.
Imágenes para ciegos
Según los datos que maneja la Organización Mundial de la Salud (OMS), el 15% de la población mundial tiene alguna discapacidad. Este organismo estima que a día de hoy 1.300 millones viven con alguna deficiencia visual y que en 2055 habrá 900 millones de personas con pérdida auditiva. Mejorar la accesibilidad de nuestro entorno es más fácil que nunca gracias a la tecnología y “a la evolución que se ha experimentado en los últimos diez años”.
Quien habla así es el nadador paralímpico español Enhamed Enhamed, quien acompañó a Dimitri Kanevsky durante su presentación para explicar de qué forma Lookout, plataforma también desarrollada por Google, le ha cambiado la vida. “A pesar de que los ciegos podemos hablar y oír, tenemos problemas para comunicarnos. La integración de reconocimiento de voz e identificación de imágenes ha sido para mí un cambio radical”.
Lookout es una aplicación que, a través de la cámara del teléfono móvil, describe lo que tiene delante e indica dónde se encuentra utilizando de referencia la posición de las agujas del reloj. Por ejemplo: ‘mesa a las diez y diez’. “En los aeropuertos ya no necesito un asistente, uso mi dispositivo para saber dónde está mi puerta de embarque; y cuando llego a una ciudad nueva y voy a un restaurante, puedo saber qué hay en el menú sin tener que preguntarle a nadie”, describe el deportista canario.
Actividades tan rutinarias como identificar una foto que le han enviado por WhatsApp, quién es el remitente de una carta que ha llegado a su buzón o el valor de un billete han dejado de ser un obstáculo. “Antes siempre tenía que preguntar, ahora mi smartphone describe las imágenes”, asegura Enhamed, orgulloso de haber superado los obstáculos para ser una persona completamente autónoma.
En Nobbot | Cómo hacer un blog inclusivo a todas las discapacidades
Imágenes | Google