Tecnología

Microsoft lanza VALL-E, una IA de texto a voz que puede imitar una voz a partir de segundos de audio

Microsoft Corp. hoy proporcionó un vistazo a una herramienta de inteligencia artificial de texto a voz que aparentemente puede simular una voz después de escuchar solo tres segundos de una muestra de audio.

La compañía dijo que su herramienta, VALLE-E, puede mantener el tono emocional del hablante durante el resto del mensaje, mientras simula la acústica de la habitación donde escuchó la voz por primera vez. No solo puede hacer esto a partir de una pequeña muestra de audio, algo inaudito hasta ahora, sino que Microsoft dice que ningún otro modelo de IA puede sonar tan natural.

La simulación de voz no es nada nuevo. En el pasado, se usaba para simular voces humanas, pero no siempre para la la mejor de las razones. La preocupación aquí es que cuanto más mejora esta IA, mejores son las falsificaciones profundas de audio, y entonces podría haber un problema.

Por el momento, es imposible saber qué tan bueno es VALL-E, ya que Microsoft no ha lanzado la herramienta al público, aunque ha brindado muestras del trabajo realizado. es francamente muy impresionante si en verdad este mimo tomó sólo tres segundos, y la voz podía seguir hablando por cualquier período de tiempo.

Si es tan bueno como Microsoft dice que es y puede sonar tan humano como un ser humano, carisma y todo, puede ver por qué Microsoft quiere invertir mucho en la IA que acaba de conquistar el mundo, ChatGPT de OpenAI LLC. Si se combinan, es posible que las personas que hacen preguntas por teléfono en los centros de llamadas no puedan distinguir a un humano de un robot. Quizás las herramientas juntas también podrían crear lo que parece ser un podcast, excepto que el invitado no es real.

Una poderosa herramienta que puede imitar perfectamente la voz de alguien después de solo unos segundos es preocupante. En manos de las personas equivocadas, puede usarse para difundir información errónea, imitando las voces de políticos, periodistas o celebridades. Parece que Microsoft es muy consciente del posible uso indebido.

«Debido a que VALL-E puede sintetizar el habla que mantiene la identidad del hablante, podría haber riesgos potenciales en el mal uso del modelo, como falsificar la identificación de voz o hacerse pasar por un hablante específico», dijo Microsoft en la conclusión del documento. “Para mitigar estos riesgos, es posible construir un modelo de detección para discriminar si un clip de audio fue sintetizado por VALL-E. También pondremos en práctica los Principios de IA de Microsoft al desarrollar los modelos”.

Fotografía: Volodymyr Hryshchenko/unsplash

Muestre su apoyo a nuestra misión uniéndose al Cube Club y a la comunidad de expertos de Cube Event. Únase a una comunidad que incluye al director ejecutivo de Amazon Web Services y Amazon.com, Andy Jassy, ​​el fundador y director ejecutivo de Dell Technologies, Michael Dell, el director ejecutivo de Intel, Pat Gelsinger, y muchas otras luminarias y expertos.

Federico Pareja

"Escritora típica. Practicante de comida malvada. Genio zombi. Introvertido. Lector. Erudito de Internet. Entusiasta del café incondicional".

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba