Las inteligencias artificiales cada vez nos sorprenden más. En esta oportunidad, Meta, empresa dueña de Facebook, Instagram y WhatsApp, ha diseñado una IA llamada MusicGen, la cual promete crear música por medio de texto. ¿La industria musical está en peligro con esta nueva herramienta?
MusicGen es un modelo de lenguaje que usa el prototipo Transformer de Google. Así como otros modelos de lenguaje pueden anticipar las palabras que seguirán en una oración, esta inteligencia artificial puede generar la próxima parte de una pieza musical.
La IA de Meta puede generar música de dos formas: solo con el texto o con el texto y un audio. A partir de lo que se le indique, creará la melodía. Es un proyecto de código abierto, disponible para que cualquiera pueda conocer los aspectos técnicos de cómo funciona.
MusicGen se distingue por poder crear música con texto y melodías ya hechas. El texto define el estilo, que se ajusta a la melodía del audio. Por ejemplo, si se mezcla un texto que pide una pista de pop de los 80 con la melodía de la conocida «Tocata y fuga en re menor» de Bach, MusicGen puede hacer una nueva pieza musical con estas indicaciones. Se pueden ver este y otros ejemplos en la demo de esta herramienta en Hugging Face, donde los usuarios ya tienen la posibilidad de probar las habilidades de MusicGen para hacer música con sus propios textos y audios.
Publicidad
Hay que tener en cuenta que MusicGen no da un control exacto sobre la dirección de la melodía. El texto solo da el estilo básico, que no se respeta al pie de la letra en la salida generada. Aun así, es una orientación aproximada para crear música y da resultados curiosos.
MusicGen supera a otros modelos famosos como Riffusion, Mousai, MusicLM y Noise2Music en medidas objetivas y subjetivas. La música que hace MusicGen se ajusta mejor a la letra y tiene más sentido en la composición. En general, según las pruebas de rendimiento hechas por The Decoder, está por encima del nivel de MusicLM de Google.
Publicidad
La empresa usó un modelo de lenguaje basado en Transformer de Google para hacer esta plataforma, que se entrenó con 20.000 horas de música, usando 10.000 pistas de audio de buena calidad y datos de Shutterstock y Pond5, fuentes de audio con licencia.