VALL E 2 Generador de voces con inteligencia artificial

Поділитися
Вставка
  • Опубліковано 10 лип 2024
  • Microsoft ha desarrollado una nueva iteración de su modelo lingüístico de inteligencia artificial con códec neural, Vall-E, que supera los esfuerzos anteriores en términos de naturalidad, solidez del habla y similitud con el hablante.
    VALL-E 2 es la primera IA de su clase en alcanzar la paridad humana en un par de pruebas de referencia populares, y al parecer es tan realista que Microsoft no tiene previsto conceder acceso al público.
    Nos guste o no, dentro de poco va a ser imposible poder distinguir una voz humana de una generada con inteligencia artificial. Ya vimos hace unos meses la noticia de que OpenAI había creado una IA para clonar voces demasiado perfecta como para ser lanzada, y ahora ha sido el turno de Microsoft. Si algo nos ha enseñado la historia es que sólo es cuestión de tiempo para que un actor malicioso dé con los ingredientes de la formula.
    En un artículo publicado en arXiv, los investigadores de Microsoft afirman que VALL-E 2 es capaz de generar "un habla precisa y natural con la voz exacta del hablante original, comparable al rendimiento humano". En otras palabras, el nuevo generador de voz de IA es lo suficientemente convincente como para ser confundido con una persona real, al menos según sus creadores.
    "VALL-E 2 es el último avance en modelos lingüísticos de códec neural que marca un hito en la síntesis de texto a voz (TTS) sin disparos, alcanzando por primera vez la paridad humana", escriben los investigadores en el artículo. "Además, VALL-E 2 sintetiza de forma consistente habla de alta calidad, incluso para frases que tradicionalmente son un reto debido a su complejidad o frases repetitivas".
    Microsoft puso a prueba Vall-E 2 con los conjuntos de datos LibriSpeech y VCTK, y los superó con nota. Cuando la empresa afirma que la herramienta de IA alcanza la paridad humana, se refiere a que Vall-E 2 obtuvo mejores resultados que las muestras reales en cuanto a robustez, similitud y naturalidad. En otras palabras, la herramienta puede producir un habla natural prácticamente idéntica a la del hablante original.
    Microsoft ha compartido docenas de muestras de Vall-E 2, que pueden consultarse en la página de resumen del proyecto. De hecho, las muestras de Vall-E 2 son increíblemente realistas e indistinguibles de un hablante humano. La herramienta de inteligencia artificial domina incluso sutilezas como poner el énfasis en la palabra correcta de una frase, como hacen inconscientemente las personas al hablar.
    Según Microsoft, Vall-E 2 es un proyecto de investigación y no tiene previsto incorporar la tecnología a un producto de consumo ni ponerla a disposición del público en general. Los de Redmond señalaron además que conlleva un riesgo potencial de uso indebido, como suplantar la identidad de una persona concreta o falsear la identificación de la voz.
    Dicho esto, la empresa cree que podría tener aplicaciones en educación, traducción, accesibilidad, periodismo, contenidos de autoría propia y chatbots, entre otras.
    Detalles técnicos ¿Cómo funciona?
    Aprovechando la base de Vall-E, la nueva herramienta de voz de IA de Microsoft integra dos importantes mejoras que mejoran enormemente el rendimiento. El modelado de códigos agrupados permite a Microsoft organizar mejor los códigos de los códecs, lo que da lugar a secuencias más cortas que aumentan la velocidad de inferencia y ayudan a superar los problemas asociados al modelado de secuencias largas.
    El muestreo consciente de la repetición, por su parte, replantea el proceso original de muestreo de núcleos para buscar la repetición de tokens al descodificar. Según Microsoft, este proceso ayuda a estabilizar la descodificación y evita el problema del bucle infinito que presentaba el Vall-E original.

КОМЕНТАРІ •