Los recientes avances en inteligencia artificial (IA) han dado paso a una nueva era de posibilidades en el mundo del audio.
El sector del análisis de audio impulsado por IA puede ayudar a identificar y analizar patrones de sonido, proporcionando información valiosa para empresas, investigadores y otras industrias.
Uno de los desarrollos más significativos en el análisis de audio es la capacidad de detectar y analizar el habla humana. Son cada vez más las variantes de software basados en IA que pueden comprender y procesar el habla en tiempo real, lo que permite a las empresas responder rápidamente a las consultas de los clientes o identificar tendencias en los comentarios de sus consumidores.
Además, esta tecnología se puede utilizar para identificar voces en grabaciones, lo que facilita a las organizaciones la detección de fraudes y otras actividades maliciosas.
Los sistemas basados en IA pueden detectar la presencia de ruido de fondo, como el tráfico, la construcción u otros sonidos ambientales, y “limpiarlos” fácilmente con una herramienta. Esto puede ayudar a las compañías a comprender mejor las experiencias de sus clientes, además de brindar información sobre cómo administrar mejor su entorno.
El análisis de audio impulsado por inteligencia artificial también se puede utilizar para detectar y analizar música. Los servicios de transmisión como Spotify y Apple Music ahora están comenzando a utilizar estos desarrollos para comprender mejor las preferencias y gustos de sus usuarios.
Esta tecnología también se puede utilizar para mejorar la selección de canciones para las estaciones de radio o para adaptar los anuncios de publicidad a audiencias específicas.
Microsoft lanza Vall-E, audios a base de inteligencia artificial
El gigante Microsoft está hace tiempo desarrollando investigaciones relacionadas con el audio y la IA. En este sentido, acaba de presentar Vall-E, una herramienta basada en inteligencia artificial que puede generar audios capaces de emular a la perfección la voz humana
La aplicación Vall-E puede simular la voz de una persona con sólo tener una muestra de audio de 3 segundos.
Vall-E no sólo puede imitar el timbre de voz, sino también el tono emocional del discurso, algo que hasta ahora no había sido posible con éxito.
La novedad llega a horas de que se conociera que Microsoft habría decidido invertir 10 mil millones de dólares en una de las empresas más prometedoras en el sector de la inteligencia artificial, OpenAI, desarrolladora de Dall-E 2 (genera imágenes a partir de indicaciones de texto) y de ChatGPT (genera textos naturales con indicaciones).
El modelo de Vall-E utiliza la tecnología EnCodec, desarrollada por Meta.
Vall-E puede analizar cómo se escucha una persona, dividir esa información en componentes llamados “tokens”, compararlos con las más de 60 mil horas de grabaciones de 7 mil hablantes de su biblioteca y devolver un audio que entiende como se escucharía la voz de la muestra de 3 segundos si pronunciara frases diferentes.
Vall-E puede imitar también la acústica de una habitación, por lo que puede “hablar” como si fuera una llamada de teléfono, por ejemplo.
Accede al abstract de Vall-E.
Ahora lee:
¿Por qué Microsoft planea invertir U$S 10 mil millones en ChatGPT?
Microsoft prepara una versión poderosa de Bing basada en IA (¿destronará a Google?)
Crea sistema en Excel para organizar su vida amorosa y se viraliza