Un nuevo modelo de generación de música simbólica utilizando metadatos musicales

2024-10-01 14:08:19

La inteligencia artificial (IA) ha abierto nuevas oportunidades interesantes para la industria de la música, por ejemplo, permitiendo el desarrollo de herramientas que pueden generar automáticamente composiciones musicales o pistas de instrumentos específicos.Sin embargo, la mayoría de las herramientas existentes están diseñadas para ser utilizadas por músicos, compositores y productores musicales, a diferencia de usuarios no expertos.

A new model for symbolic music generation using musical metadata — Captura de pantalla de la demostración del sistema del equipo que muestra su interfaz de usuario.Crédito: Han et al.

Los investigadores de LG AI Research desarrollaron recientemente un nuevo sistema interactivo que permite a cualquier usuario traducir fácilmente sus ideas en música.Este sistema, descrito en un artículopublicadoenarXivservidor de preimpresión, combina un transformador autorregresivo exclusivo para decodificador entrenado en conjuntos de datos musicales con una interfaz de usuario intuitiva.

"Presentamos la demostración de generación musical simbólica, enfocándonos en proporcionar motivos musicales cortos que sirvan como tema central de la narrativa", escribieron Sangjun Han, Jiwon Ham y sus colegas en su artículo."Para la generación, adoptamos un modelo autorregresivo que toma metadatos musicales como entradas y genera 4 compases de secuencias MIDI multipista".

El modelo basado en transformadores que sustenta el sistema de generación de música simbólica del equipo se entrenó en dos conjuntos de datos musicales, a saber, elConjunto de datos MIDI lakhy elConjunto de datos metaMIDI.En conjunto, estos conjuntos de datos contienen más de 400.000 MIDI (instrumento musicalinterfaz digital), que son archivos de datos que contienen información diversa sobre pistas musicales (por ejemplo, las notas tocadas, la duración de las notas, la velocidad a la que se tocan).

Para entrenar su modelo, el equipo convirtió cada archivo MIDI en un archivo de representación de eventos musicales (REMI).Este formato específico codifica datos MIDI en tokens que representan varias características musicales (por ejemplo, tono y velocidad).Los archivos REMI capturan la dinámica de la música de maneras que son particularmente favorables para entrenar modelos de IA para la generación de música.

"Durante el entrenamiento, colocamos fichas aleatoriamente de los metadatos musicales para garantizar un control flexible", escribieron los investigadores."Proporciona a los usuarios la libertad de seleccionar tipos de entrada mientras mantiene el rendimiento generativo, lo que permite una mayor flexibilidad encomposición musical".

Además de desarrollar su modelo basado en transformadores para la generación de música simbólica, Han, Ham y sus colegas crearon una interfaz sencilla que la haría accesible tanto a usuarios expertos como a no expertos.Esta interfaz actualmente consta de una barra lateral y un panel interactivo central.

En la barra lateral, los usuarios pueden especificar aspectos de la música que quieren que genere el modelo, como qué instrumentos deben tocarse y el tempo de la canción.Después de que el modelo genera una canción, puede editar la pista en el panel central, por ejemplo, quitando/agregando instrumentos o ajustando el momento en el que comenzará a reproducir música.

"Validamos la eficacia de la estrategia mediante experimentos en términos de capacidad del modelo, fidelidad musical, diversidad y controlabilidad", escribieron Han, Ham y sus colegas."Además, ampliamos el modelo y lo comparamos con otros modelos de generación de música mediante una prueba subjetiva. Nuestros resultados indican su superioridad tanto en control como en calidad de la música".

Los investigadores descubrieron que su modelo funcionaba significativamente bien y podía generar de manera confiable un máximo de 4 compases de música según las especificaciones del usuario.En sus estudios futuros, podrían mejorar aún más su sistema ampliando la duración de las pistas musicales que su modelo puede crear, ampliando las especificaciones que los usuarios pueden dar y mejorando aún más la interfaz de usuario del sistema.

"Nuestro modelo, entrenado para generar 4 compases de música con control global, tiene limitaciones para extender la duración de la música y controlar los elementos locales a nivel de compás", escribieron los investigadores."Sin embargo, nuestros intentos tienen importancia a la hora de generar temas musicales de alta calidad que puedan utilizarse como bucle".

Más información:Sangjun Han et al, Control flexible en la generación de música simbólica a través de metadatos musicales,arXiv(2024).DOI: 10.48550/arxiv.2409.07467

Información de la revista: arXiv

Citación:Un nuevo modelo de generación de música simbólica utilizando metadatos musicales (2024, 1 de octubre)recuperado el 1 de octubre de 2024de https://techxplore.com/news/2024-09-music-generation-musical-metadata.html

Este documento está sujeto a derechos de autor.Aparte de cualquier trato justo con fines de estudio o investigación privados, noparte puede ser reproducida sin el permiso por escrito.El contenido se proporciona únicamente con fines informativos.

Véase también la versión en otros idiomas: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español