Poco a poco, sin prisa pero sin pausa, los asistentes de voz se van abriendo camino en el proceloso mundo de la tecnología. Apple con Siri fue uno de los pioneros en este campo, con Google, Microsoft y más recientemente Amazon avanzando a un ritmo acelerado con sus respectivos asistentes: Google Assistant, Cortana y Alexa. Hasta Facebook está trabajando en este campo con su propio asistente, llamado M, aunque de momento es solo de texto.
Son la parte visible del entramado tecnológico de la Inteligencia Artificial en el que estas empresas están sustentando un creciente volumen de negocio. Otras como Samsung también están “metiendo cabeza” con Bixby, mientras que otras como Sherpa conviven en un plano paralelo con sus propuestas.
En sus orígenes, el “lugar” natural para los asistentes de voz era el smartphone, para pasar después al ordenador en el caso de Cortana para el sistema operativo Windows 10 de Microsoft, o el de Siri para Mac OS X Sierra. Pero el gran salto se dio desde Amazon con la integración de Alexa en un altavoz para el hogar, el Amazon Echo, y posteriormente el Dot. Google, con Assistant, daría el salto a los altavoces con Google Home en 2016 y Apple, hace unos pocos días, el 5 de junio de 2017, presentaba su propio altavoz para Siri, el HomePod, aunque no estará disponible hasta diciembre en Estados Unidos y algún momento de 2018 para otras geografías.
Samsung es la última en llegar, tras la compra de Viv el pasado año, ha intentado integrar la tecnología de IA en sus terminales Galaxy S8 bajo el nombre de Bixby sin éxito. Habrá que esperar para ver de lo que es capaz este asistente una vez que esté operativo, ya que, de momento, se limita a tareas básicas de reconocimiento de imágenes, por ejemplo.
Para poner en contexto esta compra, baste decir que Viv es un asistente de voz creado por los diseñadores de Siri. Un argumento de peso para llamar la atención de Samsung
Artificial, sí; Inteligencia, a veces
Los asistentes de voz han progresado mucho en los últimos años. Pero no tanto en la parte de la inteligencia como en la del reconocimiento de voz. Los avances se realizan en la parte de la nube, que es donde reside la tecnología que hace posible que los asistentes “nos entiendan”.
Detrás de estos asistentes, hay tecnologías de reconocimiento de voz y machine learning (aprendizaje máquina). Básicamente la fórmula es la siguiente: IA = Reconocimiento de voz + algoritmos de machine learning. No es una fórmula especialmente avanzada, pero el resultado es convincente a la vista de la aceptación que tienen los asistentes.
Según diferentes estudios, como por ejemplo el Digital Consumer Survey de Accenture, los usuarios de entre 14 y 17 años usan regularmente los asistentes de voz en un 31% de los casos, que, junto al 20% de aquellos que se inician en su uso, supone más del 50% de la audiencia. A medida que aumenta la edad, el interés decae, eso sí, con más de un 50% de rechazo total hacia ellos en los mayores de 55 años.
Con todo, no estamos antes sistemas inteligentes realmente, sino expertos. Los asistentes reconocen lo que el usuario dice, extrae palabras clave de la petición y “reacciona” a partir de algoritmos que tratan de adivinar qué estamos preguntando o pidiendo.
La paradoja del periodista preguntón
Para ejemplificar la ausencia de inteligencia de estos algoritmos y sistemas expertos, se pueden usar ejemplos de la vida real. Los periodistas, por su trabajo, tienen que hacer labores de investigación de mercado con frecuencia sobre infinidad de temas.
Tras una labor de búsqueda online sobre, digamos, el impacto del aumento de temperatura en los mosquitos de río, cuando dicho periodista entre en Instagram, Amazon, Google o Facebook, tendrá los banners publicitarios plagados de anuncios de insecticidas, pongamos por caso.
Lo más probable es que a ese periodista no le interese en absoluto comprar insecticidas. Tan solo sucede que el sistema no es capaz de inferir que, por su profesión, sus búsquedas online no tienen nada que ver con sus gustos personales. Algo que cualquier persona deduciría al instante, tan solo pensando que detrás hay un periodista.
Con todo, a pesar de que no estemos ante muestras de inteligencia especialmente avanzadas más allá de “hacer como que nos entienden”, los asistentes de voz son un gran avance a la hora de acceder fácilmente a ciertas funciones de nuestros dispositivos y equipos, al no tener que pasar por los tradicionales menús y sus jerarquías de niveles sucesivos, como veremos en el siguiente apartado.
Entonces, ¿qué puedes hacer con los asistentes?
A pesar de esta ausencia de inteligencia, los asistentes empiezan a ser útiles en determinadas circunstancias cotidianas. Por ejemplo, para acceder a funciones de uso habitual, ya sea en el smartphone, en el ordenador o en alguno de los altavoces-asistentes como los de Amazon, Google y Apple en el futuro, usando tan solo la voz para ello.
En los smartphones es posible, entre otras cosas, hacer llamadas, escuchar música, saber el tiempo que va a hacer, escribir notas, añadir eventos al calendario, escribir correos e incluso lanzar aplicaciones como la cámara, aunque sin llegar a hacer la foto, para lo cual tendremos que pulsar en el botón en pantalla o uno físico que esté asignado a tal función. En los altavoces para casa, las funcionalidades entran dentro de la consulta de información, como las noticias o el pronóstico meteorológico, así como el control de funciones en el hogar dentro del ámbito de la domótica o acceder a servicios de venta online como el de Amazon.
El gran acierto de productos como el Amazon Echo con tecnología Alexa o el altavoz de Google es el de permitir a terceras partes, como los fabricantes de soluciones para el hogar conectado, que se integren con el altavoz mediante APIs que Amazon pone a su disposición. De este modo, un fabricante de persianas motorizadas puede añadir funcionalidades para subirlas y bajarlas mediante comandos de voz. Estas funcionalidades se llaman «skills» (habilidades), y están teniendo una buena aceptación por parte de muchas empresas que buscan la integración con el altavoz de Amazon.
Otras funciones que pueden asumir son las de encender y apagar las luces de la casa o controlar la climatización, aparte de acceder a contenidos multimedia (de audio) usando comandos de voz, por supuesto, a través de preguntas relativamente complejas, como «qué canción fue superventas en el año 1978»
En los ordenadores Windows y Mac, también contamos con Cortana y Siri, respectivamente. Siri llegó a Mac OS X hace un año aproximadamente, y es capaz de realizar, al margen de las tareas de búsqueda web habituales, otras que facilitan mucho las tareas de gestión del equipo, tales como búsquedas de archivos por fechas, por tipo, hacer que se reproduzcan canciones o añadir citas al calendario.
Cortana para PC, por su parte, realiza tareas similares, junto con otras como conversión entre unidades, cálculos matemáticos, creación de recordatorios, anotaciones o entradas de calendario. Se puede activar mediante voz, incluso con el equipo en suspensión, y hasta es más practico que Cortana en su versión móvil, al estar, en general, en espacios con menos ruido ambiental, por lo que nos “escucha” mejor.
Clases de español, por favor
Los avances en el reconocimiento de voz son excepcionales. Amazon en Alexa usa el mismo motor que Microsoft: LUIS (Language Understanding Intelligent Service), un motor de inteligencia conversacional que contiene una tecnología de reconocimiento de voz sumamente avanzada. Siri trabaja con tecnología de Nuance (la empresa que estaba detrás de Dragon Naturally Speaking), mientras que Google emplea su propio motor, con una capacidad de reconocimiento en tiempo real.
Así, por ejemplo, podremos “escribir” notas en nuestra aplicación preferida (sea Keep de Google, Notas de iOS, etcétera) simplemente hablando de viva voz. Hace no muchos meses, solo se podían tomar notas breves, pero ahora podemos dictar notas con una extensión prácticamente ilimitada.
A pesar de que es reconocimiento de voz es multiidioma, los asistentes aún no «entienden» el español en muchos casos. Google Assistant, Bixby o Alexa todavía tienen que estudiar idiomas para expandir su uso a nivel global.
Otros asistentes de voz
Actualmente también encontramos asistentes de voz en dispositivos como las televisiones, especialmente de gama alta, pero con una tendencia clara a integrarse en productos cada vez más económicos.
A través de la voz, podemos evitar el uso de los tediosos menús, así como realizar búsquedas de contenidos o en Internet a través de las funciones “smart” de los televisores.
Los estudios de los analistas son muy optimistas respecto al uso de la voz y de los asistentes, con predicciones que hablan de que el 50% de las búsquedas serán por voz en 2020 según comscore. O que habrá mas de 21 millones de altavoces smart en EEUU en 2020, según Activate, con mas de 600 millones de dólares de valor para la industria del reconocimiento de voz, como por otra parte anuncia Technavio.
En Nobbot | Asistentes personales: cómo sacar partido a Siri, Google Now y Cortana