El equipo de investigación de Microsoft reveló VALLE-E 2un nuevo sistema de IA para síntesis de voz capaz de generar voces a “nivel humano” con tan solo unos segundos de audio, indistinguibles de la fuente.
“(VALL-E 2 es) el último avance en modelos de lenguaje de códec neuronal que marca un hito en la conversión de texto a voz (TTS) de disparo cero, alcanzando la paridad humana por primera vez”, se lee en el artículo de investigación. El sistema se basa en su predecesor, VALL-E, presentado a principios de 2023. Los modelos de lenguaje de códec neuronal representan la voz como secuencias de código.
Según el equipo, lo que distingue a VALL-E 2 de otras técnicas de clonación de voz es su método de muestreo “Repetition Aware Sampling” y el cambio adaptativo entre técnicas de muestreo. Estas estrategias mejoran la coherencia y abordan los problemas más comunes de la voz generativa tradicional.
“VALL-E 2 sintetiza constantemente voz de alta calidad, incluso para oraciones que tradicionalmente son difíciles debido a su complejidad o frases repetitivas”, escribieron los investigadores, señalando que la tecnología podría ayudar a generar voz para personas que pierden la capacidad de hablar.
Por muy impresionante que sea, la herramienta no estará disponible al público.
“Actualmente, no tenemos planes de integrar VALL-E 2 en un producto o ampliar el acceso público”, dijo Microsoft en su declaración de ética, enfatizando que tales herramientas conllevan riesgos como la imitación de voz sin consentimiento y el uso de voces convincentes de IA en estafas. y otras actividades delictivas.
El equipo de investigación destacó la necesidad de un método estándar para etiquetar digitalmente generaciones de IA, reconociendo que detectar contenido generado por IA con alta precisión sigue siendo un desafío.
“Si el modelo se generaliza a hablantes invisibles en el mundo real, debería incluir un protocolo para garantizar que el hablante apruebe el uso de su voz y un modelo para detectar el habla sintetizada”, escribieron.
Dicho esto, los resultados de VALL-E 2 son muy precisos en comparación con otras herramientas. En una serie de pruebas realizadas por el equipo de investigación, VALL-E 2 superó los criterios humanos en términos de robustez, naturalidad y similitud del habla generada.

VALL-E-2 pudo lograr estos resultados con solo 3 segundos de audio. Sin embargo, el equipo de investigación señaló que “el uso de muestras de voz de 10 segundos dio como resultado una calidad aún mejor”.
Microsoft no es la única empresa de IA que ha presentado modelos de IA de última generación sin lanzarlos. Voicebox de Meta y Voice Engine de OpenAI son dos clonadores de voz impresionantes que también enfrentan restricciones similares.
“Hay muchos casos de uso interesantes para los modelos de voz generativa, pero debido a los riesgos potenciales de uso indebido, no vamos a hacer que el modelo o código de Voicebox esté disponible públicamente en este momento”, dijo un portavoz, palabra de Meta AI. Descifrar el año pasado.
OpenAI también explicó que primero estaba intentando abordar el problema de seguridad antes de lanzar su modelo de voz sintética.
“De acuerdo con nuestro enfoque sobre la seguridad de la IA y nuestros compromisos voluntarios, elegimos realizar una vista previa, pero no lanzar ampliamente esta tecnología en este momento”, explicó OpenAI en un comunicado oficial. entrada en el blog.
Este llamado a pautas éticas se está extendiendo por toda la comunidad de IA, especialmente a medida que los reguladores comienzan a preocuparse. El impacto de la IA generativa. en nuestra vida diaria.
Editado por Ryan Ozawa.
Generalmente inteligente Boletin informativo
Un viaje semanal de IA contado por Gen, un modelo de IA generativa.