Las inteligencias artificiales (IA) text-to-speech hace tiempo que pueden leer textos en voz alta y hacerlo más o menos bien en idiomas tan variopintos como el español, el inglés, el chino y el árabe. Lo hacen mejor en aquellos lenguajes en los que hay más hablantes, claro, aunque es cuestión de tiempo que las puedan leer en voz alta en cualquier idioma. Incluidos los que han desaparecido.
¿Qué son los sistemas text-to-speech y por qué suelen ser de pago?
Los text-to-speech (en inglés, ‘de texto a voz’) son sistemas que convierten texto escrito en un audio con su contenido locutado. Hasta ahora, han sido herramientas muy limitadas por la falta de naturalidad en la ‘voz’, si es que puede llamarse así. Las IA han mejorado esto de forma considerable.
Para realizar esta conversión, servidores en la nube necesitan hacer uso de energía eléctrica, además de considerar la amortización de los equipos y los costes de mantenimiento y otros de personal. Es por ello que los sistemas de voz de inteligencia artificial tienen coste, y suele ir en función del uso, ya se mida en palabras o en tiempo de locución.
TTSMP3, de texto a voz de forma sencilla y gratuita
Si uno está buscando sencillez y algo tan rápido como para no perder el tiempo, TTSMP3.com es una de las mejores soluciones. Se abre en un navegador convencional y contiene una única casilla de texto donde escribir, así como los botones ‘Leer’ y ‘Descargar como MP3. Tiene un límite de 3000 caracteres al día.
La tecnología que hay detrás es AWS Polly, un servicio de texto a audio hablado de Amazon que utiliza aprendizaje profundo avanzado. Gracias a estas herramientas, es posible simular tres tipos de hablantes castellanos (Conchita, Lucía y Enrique) y otros tantos hispanoamericanos (Lupe, Penélope y Miguel).
TTS Catalan Voices con Narakeet
Narakeet es un sistema text-to-speech para múltiples idiomas, siendo uno de ellos el catalán. Aunque es de pago, también es una de las pocas herramientas que trabajan esta lengua. Narakeet es uno de los conversores de mayor calidad del mercado y su precio se abona acorde con ello (30 minutos a partir de 6 €).
Auris.audio, una alternativa española
Auris.audio es una plataforma de origen español que hace uso de la inteligencia artificial para convertir texto en audio. Destaca por tener voces de todos los países de Latinoamérica y, según sus creadores, por sus posibilidades comerciales.
TTSReader, gratuito pero sin descargas
Gratuito e ilimitado para uso personal, TTSReader es otra de estas aplicaciones web que destaca su integración y sincronización con Google Drive. La pega es que no permite la descarga de archivos sin comprar tókenes, solo su escucha. Su aplicación para Android e iOS ofrece escuchar páginas web como la Wikipedia.
Notevibes, interesante para diálogos y conversaciones
Notevibes es también una página web que permite la simulación de audio desde texto con decenas de idiomas, incluyendo castellano y español de Estados Unidos. En principio, es de pago, aunque cuenta con créditos de muestra.
Su función más interesante es la que crea diálogos. Con ella es posible hacer que varias voces simulen mantener una conversación. Es muy útil para descansar el oído de voces robotizadas, sobre todo si se estudian idiomas y se necesitan ejemplos en audio de conversaciones.
Play(.ht), múltiples opciones de español
Si alguien está buscando variaciones del español fuera de España, Play.ht es una de las mejores plataformas text-to-speech para ello. Entre otras voces, incluye el español de Argentina, Bolivia, Chile, Colombia, Costa Rica, Cuba, República Dominicana, Ecuador, El Salvador, Guinea Ecuatorial, Guatemala, Honduras, México, Nicaragua, Panamá, Paraguay, Perú, Puerto Rico y Uruguay.
Aunque su mecánica es tan sencilla como los anteriores, la prueba gratuita es muy corta. Pasadas unas pocas palabras, será necesaria una suscripción mensual o anual.
Murf(.ai), buena pronunciación pero alto coste
La plataforma Murf studio tiene particularidades de interés, como, por ejemplo, la forma en que el sintetizador modula la voz. Es bastante realista comparado con otras opciones. Por descontado, el contra es su coste. La versión avanzada, la que incluye más variaciones, supera los 300 $ (unos 308 €) al año sin impuestos. Aun así, merece mucho la pena si se le va a dar un uso comercial.
Resemble(.ai), clona tu propia voz en inglés
Una de las herramientas más curiosas en text-to-speech es Resemble, porque permite clonar tu propia voz si alimentas el modelo con audios tuyos. Eso sí, esta función solo está disponible en inglés, único idioma en el que trabaja. Aun así, los resultados son espectaculares y algo espeluznantes. ¿Abrirán la puerta a nuevos delitos en los que familiares nos pedirán dinero?
FakeYou, clona tu voz o imita otras en español
FakeYou Clone es una plataforma que permite clonar tu voz o cualquier otra por 70 $ (algo menos de 72 €). Más allá de las cuestiones éticas o legales, es un lugar curioso donde trabajar con voces conocidas. Por ejemplo, la de Bart Simpson. La calidad, eso sí, dista mucho de ser buena.
El nivel de ruido es muy elevado, aunque con el tiempo es probable que funcione mejor. La ventaja de este sistema es que de cada voz se encarga un profesional o una comunidad, lo que hará que los sistemas que mejor funcionen puedan transferir su modus operandi a los que aún no lo hacen.
Como estos sistemas trabajan según las fuentes disponibles y la demanda, idiomas cooficiales como el gallego, el catalán y el euskera están infrarrepresentados o muy pocos desarrollados. Por ejemplo, para euskera se tiene este sintetizador, pero recuerda al Loquendo de los años 2000. Es de esperar que en los próximos años haya nuevas herramientas.
En Nobbot | La inteligencia artificial que aprende como un bebé
Imágenes | Capturas de pantalla