A new model for symbolic music generation using musical metadata
显示其用户界面的团队系统演示的屏幕截图。图片来源:Han 等人。

人工智能 (AI) 为音乐行业带来了新的有趣机会,例如,可以开发可以自动生成音乐作品或特定乐器曲目的工具。然而,大多数现有工具都是为音乐家、作曲家和音乐制作人设计的,而不是供非专家用户使用的。

LG AI Research 的研究人员最近开发了一种新的交互系统,允许任何用户轻松地将他们的想法转化为音乐。该系统在论文中概述发表arXiv预印本服务器,将在音乐数据集上训练的仅解码器自回归变压器与直观的用户界面结合起来。

Sangjun Han、Jiwon Ham 和他们的同事在论文中写道:“我们引入了象征性音乐生成的演示,重点是提供作为叙事中心主题的简短音乐主题。”“对于这一代,我们采用自回归模型,将音乐元数据作为输入并生成 4 个小节的多轨 MIDI 序列。”

支持团队符号音乐生成系统的基于变压器的模型在两个音乐数据集上进行了训练,即十万个 MIDI 数据集元MIDI数据集。这些数据集总共包含超过 400,000 个 MIDI (数字接口)文件,这些数据文件包含有关音乐曲目的各种信息(例如,演奏的音符、音符的持续时间、演奏的速度)。

为了训练他们的模型,团队将每个 MIDI 文件转换为音乐事件表示 (REMI) 文件。这种特定格式将 MIDI 数据编码为代表各种音乐特征(例如音高和速度)的标记。REMI 文件以特别有利于训练用于音乐生成的 AI 模型的方式捕获音乐的动态。

研究人员写道:“在训练过程中,我们从音乐元数据中随机删除标记,以保证灵活的控制。”“它为用户提供了选择输入类型的自由,同时保持生成性能,从而实现更大的灵活性”。

除了开发基于变压器的符号音乐生成模型之外,Han、Ham 和他们的同事还创建了一个简单的界面,使专家和非专家用户都可以使用它。该界面目前由侧边栏和中央交互面板组成。

在侧边栏中,用户可以指定他们希望模型生成的音乐的各个方面,例如应该演奏什么乐器以及歌曲的节奏。模型生成歌曲后,他们可以在中央面板中编辑曲目,例如,通过删除/添加乐器或调整开始播放音乐的时间。

Han、Ham 和他们的同事写道:“我们通过模型容量、音乐保真度、多样性和可控性方面的实验来验证该策略的有效性。”“此外,我们扩大了模型的规模,并通过主观测试将其与其他音乐生成模型进行了比较。我们的结果表明了其在控制和音乐质量方面的优越性。”

研究人员发现他们的模型表现非常好,并且可以根据用户的规格可靠地生成最多 4 小节的音乐。在未来的研究中,他们可以通过延长模型创建的音乐曲目的持续时间、扩大用户可以给出的规格以及进一步增强系统的用户界面来进一步改进系统。

研究人员写道:“我们的模型经过训练可以生成具有全局控制的 4 个小节音乐,但在延长音乐长度和控制小节级局部元素方面存在局限性。”“然而,我们的尝试对于生成可用作循环的高质量音乐主题具有重要意义。”

更多信息:Sangjun Han 等人,通过音乐元数据灵活控制符号音乐生成,arXiv(2024)。DOI:10.48550/arxiv.2409.07467

期刊信息: arXiv

© 2024 Science X 网络

引文:使用音乐元数据生成符号音乐的新模型(2024 年 10 月 1 日)检索日期:2024 年 10 月 1 日来自 https://techxplore.com/news/2024-09-music- Generation-musical-metadata.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。