今天小编分享的科学经验:大模型学会听音乐了!风格乐器精准分析,还能剪辑合成,欢迎阅读。
腾讯 PCG ARC 实验室 投稿
量子位 | 公众号 QbitAI
能处理音乐的多模态大模型,终于出现了!
只见它准确分析出音乐的旋律、节奏,还有使用的乐器,甚至其中的意境也能解读。
而且它不仅会听,只要给它一段文字和图片,它就会在理解图片意境之后,结合文字要求来创作:
甚至是给静默的视频配上声音:
现有的音乐它也能编辑,比如从一段音乐中去除鼓的声音
以上的这些效果,都出自腾讯 PCG ARC 实验室新推出的基于多模态模型的音乐理解与生成框架M2UGen。
它可以进行音乐理解、音乐编辑以及多模态音乐生成(文本 / 影像 / 视频到音乐生成)。
研究团队在模型的五种能力上分别和现有模型进行了一一对比,并在多模态音乐生成的三个子任务上(文本 / 影像 / 视频到音乐生成)做了主观评测实验,发现 M2UGen 模型性能均优于现有模型。
此外,由于没有很多合适数据集用于模型训练,研究团队还研发了一套数据生成方法,制作了 MUCaps、MUEdit、MUImage、MUVideo 四个数据集并发布。
目前团队已将模型代码库在 Github 开源,并在 Huggingface 上开放了模型权重和训练所需数据集(需申请)。
那么,M2UGen 究竟是怎样实现的呢?
模型共分四个模块
M2UGen 模型分为四个模块区網域,分别是多模态特征编码器、多模态理解适配器、桥接 LLM 以及音乐理解与生成模块。
下图展示了 M2UGen 模型的整体框架:
多模态特征编码器
为了实现多模态音乐理解与生成,模型需要处理多模态输入。
基于此,研究团队应用了一些现有的模态编码器,如音乐编码器 MERT、影像编码器 ViT 和视频编码器 ViViT。
ViT 和 ViViT 是视觉领網域常用的两个基于 Transformer 的编码器,在现有的一些 LLM 相关工作中经常涉及,因此开发者选用这两个分别作为影像和视频编码器。
对于音乐输入,前序工作 MU-LLaMA 证明了 MERT 模型显著优于其他比较的音频 / 音乐编码器,因此在 M2UGen 中研究团队选用 MERT 作为音乐输入的编码器。
多模态理解适配器
该模块的主要作用是将编码器输出的特征向量进行信息整合,输入到后续的 LLM 中和文本输入一起控制 LLM 的输出。
如下图所示,该模块主要由 1D 卷积层、线性映射层和一个稠密网络模块(Dense Network)组成。
最后的稠密网络模块如下图:
该模块由三个子模块组成,包含正则化层(Nomarlization)、线性层(Linear)、激活函数(SiLU)等组件。
该过程可由下式表示:
其中 Xi 表示第 i 个子模块之后的输出嵌入向量,Lj,i 表示第 i 个子模块的第 j 层线性层,Ni 表示第 i 个子模块内的正则化层,SiLU 是激活函数。
该稠密网络设计延续自团队的前序工作 MU-LLaMA。
在稠密网络之后,输出 4096 维的嵌入向量,提供给下游的 LLM 使用。
桥接 LLM
为了将多模态上下文信息引入 LLM,研究者将来自相邻上游多模态理解适配器的输出接入到 LLM 的指定层。
研究者采用了 Meta 研发的 LLaMA 2 模型作为底座 LLM,如下图所示。
这里选用的模型版本是 LLaMA 2 7B 模型,包含 N=32 个隐层。
从该模型的顶层算起,每 L 层(L=6)引入一个模态信息,从上至下依次引入音乐、影像和视频模态信息,并使用零初始值注意力模块,底部的 ( N-3L-1 ) 层则采用原始的注意力模块。
LLM 的文本指令从底层,也即第一层输入。利用该技术,LLM 被赋予了通过其他模态信息来引导 LLM 输出的能力。
音乐理解与生成模块
受 NExT-GPT 工作启发,本模型引入了特定的音频标记 [ AUD ] ,用来区分音乐问答和生成任务。
在模型训练阶段,对于以音乐作为输出(即音乐生成任务)的训练样本对(如文本指令 - 音乐对),这些音频标记会添加在 LLM 输出的末尾,用于指示下游的音乐输出。
在模型推理阶段,假如用户输入的指令和音乐生成有关,比如 Generate a music using flute(用笛子生成一段音乐),则 LLM 的输出会包含音频标记,从而下游的音乐解码器会接收该指令并生成以笛子作为演奏乐器的音乐;
反之如果 LLM 的输出没有音频标记,则表明用户期望的是音乐理解任务,此时由 LLM 直接回应用户提问。
研究人员尝试了两种音乐解码器—— AudioLDM 2 和 MusicGen,其中 MusicGen 的音乐生成表现相较 AudioLDM 2 更好。
提出新数据集,训练分三阶段
训练数据集
如本文研究贡献所述,本研究构造了四组数据集 MUCaps、MUEdit、MUImage 和 MUVideo,数据样本示例如下图所示。
MUCaps 数据集:
约 1200 小时来自 AudioSet 和一些网站的公开音乐;
利用 MU-LLaMA 模型对搜集的音乐檔案生成音乐注解组成音乐 - 文本对。
MUEdit 数据集:
从 AudioSet 构建音乐池(音乐池和 MUCaps 不同),并筛选出约 60 小时相似的音乐 - 音乐对;
筛选条件包括速度(tempo)、beats(节拍)等,从而得到大体相似,但有一定区别的音乐 - 音乐对(比如使用的乐器不同);
将音乐 - 音乐对看作是源 - 目标对,将源音乐的注解文本输入给 MPT-7B [ 14 ] 模型得到人类端对话,目标音乐的注解文本输入给 MPT-7B 模型得到模型端对话,也即源音乐和目标音乐都得到对应指令用于模型训练。
MUImage/MUVideo 数据集:
从 AudioSet 再另外采样一些影像 / 视频 - 音乐对(和 MUCaps/MUEdit 中的音乐均不同,最小化音乐重复),用 BLIP/VideoMAE 模型对影像 / 视频做影像 / 视频注解;
将影像 / 视频 + 音乐的注解文本输入到 MPT-7B 模型,分别得到人类端和模型端对话。
以上数据集构造脚本可参见:
https://github.com/shansongliu/M2UGen/tree/main/Datasets
而 M2UGen 模型的训练参考了 NExT-GPT 的训练方式,分为三个阶段,分别是编码端训练、解码端训练和编解码联合训练。
阶段 1:编码端训练
该阶段冻结多模态编码器和 LLM,只训练多模态理解适配器;
利用来自 MUCaps/COCO/MUVideo 的音乐 / 影像 / 视频 - 文本对做阶段 1 训练;
训练损失为交叉熵损失,即比较 LLM 的输出和目标注解文本。
阶段 2:解码端训练
这一阶段不考虑编码测(模态编码器和适配器),冻结 LLM,训练输出映射模块;
此阶段旨在训练 LLM 生成指示下游音乐解码器输出音乐的指令,或直接根据输入指令对输入的音乐做问答或注解;
需要对齐的是音乐解码器(AudioLDM 2/MusicGen)的文本编码器输出和 M2UGen 模型输出映射模块产生的条件嵌入向量,即对输出端进行对齐;
此阶段在训练时,通过添加特定的音频标记 [ AUD ] 来指示是否生成音乐。如果 LLM 的输出中包含 [ AUD ] ,则同时生成文本 + 音乐(音乐生成),如果不包含,则只生成文本(音乐问答);
损失函数采用交叉熵和均方误差,其中交叉熵是比较 LLM 输出的音频标记和真值音频标记,均方误差是比较 M2UGen 模型输出映射模块产生的条件嵌入向量和音乐解码器的文本编码器的输出文本嵌入向量。
阶段 3:编解码联合训练
该阶段冻结多模态编码器和 LLM,训练多模态理解适配器和输出映射模块,以及 LLM 中的 LoRA 参数;
此阶段训练时训练数据有 Alpaca(通用知识)、MusicQA、MUImage、MUVideo 和 MUEdit;
为了使模型可以同时生成音乐和文本, MUImage、MUVideo 和 MUEdit 三个数据集在阶段 3 训练时 LLM 输出端添加了特定的音频标记(和阶段 2 训练类似)。
未来,研究团队的工作重点是进一步提升模型的细粒度音乐理解能力,并改善生成音乐与输入指令之间的相关性,也使音乐编辑能力更加精确。
论文地址:https://arxiv.org/pdf/2311.11255.pdf
— 完 —
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
>