Una cantidad cada vez mayor de startups están utilizando inteligencia artificial para generar voces sintéticas que imitan (y buscan reemplazar) las de actores, personajes de videojuegos y publicidades.
El avance es asombroso y cada vez está penetrando más en el mundo del cine, el marketing y la publicidad.
Compañías como WellSaid Labs “venden” voces digitales con descripciones que hablan del tono de cada una: “enérgica y audaz”, “serena y expresiva”, “refinada, segura de sí misma y muy profesional”.
Cada voz se basa en la de una persona real, pero luego, mediante IA, se perfecciona. Simplemente las empresas introducen algo de texto en el motor de voz y, a partir de ahí, se puede grabar casi cualquier audio, sin necesidad de que el “dueño” de la voz vuelva a interpretarlo.
WellSaid Labs, con sede en Seattle, nació de un proyecto de investigación del Allen Institute of Artificial Intelligence. Se especializa en voces para videos corporativos de e-learning, pero la idea es ampliar el espectro hacia otros mercados, como asistentes digitales, operadores de centros de llamadas, personajes de videojuegos y publicidades.
Las agencias de marketing ya están viendo con atención el fenómeno a partir de la mejora de la calidad. Estos avances basados en IA han hecho posible replicar muchas de las sutilezas del habla humana que antes eran impensadas.
Las nuevas “voces sintéticas” se detienen y respiran de la misma manera que lo haría un humano. Pueden cambiar su estilo y denotar emociones.
Por ahora, se pueden identificar si las voces hablan durante un tiempo largo, pero en clips de audio cortos, son realmente indistinguibles.
Además, como explican en TR, las voces de IA también son baratas, escalables y fáciles de manipular. A diferencia de una grabación de un actor de voz humano, las voces sintéticas también pueden actualizar su guión en tiempo real, abriendo nuevas oportunidades para personalizar la publicidad.
Por supuesto, esto es un problema para quienes viven de la locución y para algunos actores y actrices. Es que las nuevas voces ya no son como las de Siri y Alexa originales, donde simplemente se unían palabras y sonidos para lograr un efecto robótico.
Conseguir que las voces suenen más naturales es una tarea de años de perfeccionamiento de software y aprendizaje profundo. Una vez diseñado el algoritmo, se logran ritmos, tonos y pronunciaciones casi perfectas.