Meta anuncia Voicebox: Un modelo de inteligencia artificial de última generación para edición del habla

Voicebox es un modelo de inteligencia artificial desarrollado por Meta que tiene la capacidad de generar y editar el habla, incluso sin haber sido específicamente entrenado para ello, mediante el aprendizaje en contexto. Mark Zuckerberg, fundador de Meta, reveló que Voicebox puede producir fragmentos de audio de alta calidad, realizar ediciones en audio pregrabado y trabajar en seis idiomas diferentes.

Este modelo se basa en un método propuesto por Meta IA llamado Flow Matching, y se espera que en el futuro pueda tener aplicaciones como dar discursos naturales a asistentes virtuales, permitir a personas con discapacidad visual escuchar mensajes escritos en sus estilos preferidos y brindar herramientas de edición de audio a los creadores de videos.

Entre las caracteristicas presentadas, se destacan:

Eliminar ruidos de fondo de un discurso.
Editar el contenido: modificar una palabra hablada manteniendo tono y voz.
Text to Speech: generar un discurso desde un audio, con distintas voces entrenadas.
Transferencia de Idiomas: entrenar una voz en un idioma y generar discursos en otro distinto.
Diversidad: cambio de género de voces

Debido a los posibles riesgos de mal uso, el modelo y su código no están disponibles actualmente para el público.

https://twitter.com/FriedBrianAI/status/1669738227605856256

Meta IA busca mantener un equilibrio entre compartir su investigación con la comunidad de IA y garantizar la responsabilidad en el uso de sus modelos. Aunque los modelos generativos de habla aún están en una etapa primitiva en términos de escala y generalización de tareas, Voicebox representa un hito importante en la investigación de IA generativa y promete abrir nuevas posibilidades en el ámbito del audio.