MusicGen de Meta, una innovadora herramienta para generar música basada en texto

MusicGen, de Meta, es una nueva y poderosa herramienta capaz de generar breves piezas de música a partir de indicaciones de texto, permitiendo incluso su alineación con melodías existentes.

Este innovador modelo sigue el mismo principio de los modelos de lenguaje al predecir la siguiente sección en una composición musical.

Según The Decoder, MusicGen utiliza el tokenizador de audio EnCodec de Meta para descomponer los datos de audio en componentes más pequeños, lo que permite un procesamiento eficiente y rápido.

El equipo de desarrollo entrenó este modelo utilizando 20.000 horas de música con licencia, incluyendo un conjunto de datos interno de 10.000 pistas de alta calidad, así como datos musicales de Shutterstock y Pond5.

Una de las características más destacadas de MusicGen es su capacidad para manejar tanto indicaciones de texto como de música. El texto proporciona el estilo básico que se combina con la melodía del archivo de audio, creando así una composición musical única.

Aunque no se puede controlar con precisión la adaptación a la melodía en diferentes estilos, las indicaciones de texto sirven como una guía aproximada para la generación, aunque no se reflejan exactamente en el resultado final.

Meta ha puesto a disposición del público el código y los modelos de MusicGen como software de código abierto en Github, permitiendo su uso comercial. También se encuentra disponible una demostración en Huggingface.