大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

只给一张图,AI找到对应合适BGM,央音清华等构建全球化音乐信息检索新范式

2025-02-25 简体 HK SG TW

今天小编分享的科学经验:只给一张图,AI找到对应合适BGM,央音清华等构建全球化音乐信息检索新范式,欢迎阅读。

给 AI 看一眼图,它就能找到对应音乐。

比如一艘海上航行的海盗船,啪一下,就检索到了加勒比海盗经典配乐。

音乐信息检索(Music Information Retrieval, MIR)一直面临着多模态数据的复杂性和多语言文本理解的挑战。

当前的 MIR 系统主要关注特定模态对(如文本 - 音频或文本 - 乐谱),限制了跨模态理解的潜力。

同时,现有的数据集主要以英语为主,缺乏多语言覆盖,导致 MIR 在非英语环境下的泛化能力受限。

为此,来自中央音乐学院、清华大学、香港科技大学大学、上海纽约大学等机构的研究者推出CLaMP 3(Contrastive Language-Music Pre-training)——一个跨模态、跨语言的统一音乐信息检索框架。

通过对比学习,CLaMP 3 首次实现了乐谱、演奏信号、音频录音等音乐模态与多语言文本的联合对齐,使得不同模态之间可以通过文本桥接进行高效检索。其多语言文本编码器能够适应从未见过的语言,在跨语言检索任务上表现卓越。

CLaMP3 基于检索增强生成(Retrieval-Augmented Generation, RAG)策略,构建了规模达到 2.31M 音乐 - 文本对的 M4-RAG 数据集,并结合详细的音乐元数据,覆盖27 种语言、194 个国家的音乐文化。此外,研究团队还推出了WikiMT-X,一个由乐谱、音频和多样化文本描述组成的 1000 个样本的基准数据集,推动跨模态音乐理解的研究。

实验结果表明,CLaMP 3 在多个 MIR 任务上取得了当前最优性能,不仅大幅超越已有基线模型,还在跨模态、跨语言的检索任务中展现了卓越的泛化能力。

图 1:CLaMP 3 展现出强大的跨模态和跨语言泛化能力。监督对齐(实线箭头)连接成对的模态,而涌现对齐(虚线箭头)则弥合未对齐的模态。多语言文本编码器使得在对齐过程中未见(灰色气泡)的语言中也能进行检索。

动机:MIR 需要真正的跨模态、跨语言对齐

音乐是全球性的,但 MIR 的发展仍然面临以下关键问题:

多模态数据对齐难度高:乐谱、MIDI(演奏信号)、音频各自有独特的数据表示方式,传统方法难以统一处理不同模态。

多语言音乐信息检索受限:现有数据集以英语为主,缺乏对其他语言的覆盖,导致 MIR 模型难以泛化到全球音乐语境。

缺乏高质量的多模态 - 多语言数据:音乐文本数据多为简短的标签,缺乏详细的长文本描述,限制了 MIR 系统的理解能力。

为解决上述问题,CLaMP 3 构建了一个通用的跨模态 - 跨语言检索框架,通过对比学习构建共享表示空间,使得不同模态的音乐数据可以在无配对训练数据的情况下进行检索。

方法:对比学习 + 检索增强生成,构建统一音乐表示空间

CLaMP 3 采用对比学习(Contrastive Learning)作为核心优化目标,通过多阶段训练策略对齐不同模态,并利用检索增强生成(RAG)扩展高质量音乐 - 文本数据。

图 2:CLaMP 3 采用对比学习来对齐不同模态的特征。乐谱和演奏信号被分割为单元(小节或 MIDI 消息),并由符号音乐编码器处理,而音频则被分割为 5 秒片段,并通过音频特征提取器和音频音乐编码器处理。符号和音频表示均与来自多语言文本编码器的文本表示对齐。

训练策略:多阶段模态对齐

CLaMP 3 的训练策略借鉴了 ImageBind 的思想,采用四阶段跨模态对齐:

文本与乐谱对齐:训练文本编码器与乐谱编码器。

文本与音频对齐:冻结文本编码器,训练音频编码器。

优化文本对齐:解冻文本编码器,细调文本 - 音频对齐。

修正跨模态漂移:重新对齐文本 - 乐谱,以减少前一阶段的对齐偏差。

这一策略确保了所有模态最终映射到统一的表示空间,避免模态漂移问题。

核心组件:多模态 Transformer 编码器

CLaMP 3 由多个基于 Transformer 的编码器组成,每个编码器针对不同模态进行处理,以确保跨模态对齐和信息融合。

多语言文本编码器

CLaMP 3 的文本编码器基于XLM-R-base,一个预训练于 2.5TB CommonCrawl 数据的模型,涵盖100 种语言。该编码器具有12 层 Transformer,隐藏维度为768,具备强大的跨语言泛化能力,可用于处理未见语言的数据。

符号音乐编码器

CLaMP 3 采用M3作为符号音乐编码器,它是一种自监督学习模型,可处理多轨ABC 记谱格式和MIDI。

输入格式:ABC 以小节(bar)为部門分割,MIDI 以消息(message)为部門分割。

模型结构:12 层 Transformer,隐藏层大小 768。

处理能力:支持 512 个片段(patches)或 32,768 个字元,可捕捉复杂的符号音乐模式。

音频音乐编码器

CLaMP 3 的音频编码器是一个12 层 Transformer,隐藏维度同样为768,专为音乐音频处理而训练。

特征提取:利用 MERT-v1-95M 预训练特征,MERT 作为冻结的音频特征提取器。

输入部門:将音频分割为 5 秒片段,并计算所有 MERT 层的时间步均值,生成单个嵌入向量。

处理能力:最多支持 128 个嵌入向量(对应 640 秒音频),能够建模长时音乐特征。

统一表示空间

所有编码器的输出都经过线性层和平均池化(average pooling)处理,最终生成全局语义特征,确保不同模态数据在共享表示空间中对齐。

数据集:M4-RAG

CLaMP 3 的训练依赖于大规模的高质量多模态多语言音乐数据集M4-RAG。

数据来源

CLaMP 3 结合符号音乐数据和音频音乐数据以构建多模态学习基础:

符号音乐数据:

WebMusicText(WebMT):1.4M ABC 记谱檔案。

Million MIDI Dataset(MMD):1.5M MIDI 檔案。

数据转换:MMD 转换为 ABC,WebMT 转换为 MIDI,最终形成 3M 统一格式的符号音乐数据。

音频音乐数据:

从网络收集 1.8M 音轨,总计 16 万小时音频,并预提取音频特征以减少计算成本。

元数据处理

CLaMP 3 依赖音乐标题(Title)作为主要检索信号,通过检索增强生成(RAG)从 Web 获取丰富的元数据,包括风格、标签、背景信息等,最终借助 Qwen2.5-72B 构建M4-RAG:

数据量:2.31M 元数据条目。

音乐 - 文本对齐:

ABC- 文本:0.58M

MIDI- 文本:0.17M

音频 - 文本:1.56M

元数据涵盖短文本(如流派、标签)和长文本(如背景介绍、音乐分析),提供全面的音乐描述信息。

表 1:M4-RAG 的元数据概览,按基本信息、注释和翻译进行分类。在注释(Annotations)部分,地区(Region)和语言(Language)以英语书写,其他資料欄遵循对应的语言规范。

语言 & 地理覆盖

M4-RAG涵盖 27 种语言,其中大部分元数据原始语言为英语。

翻译增强:使用Qwen2.5-72B进行翻译,增加低资源语言的数据量(如马来语、缅甸语)。

全球覆盖:数据来源于194 个国家,涵盖主流音乐市场及多样化的地網域音乐风格。

图 3:M4-RAG 中原始数据和翻译数据的语言分布,覆盖 27 种语言。

图 4:M4-RAG 中音乐曲目的国家分布,涵盖 194 个国家。

实验:CLaMP 3 在跨模态、跨语言检索上超越现有 SOTA

CLaMP 3 在多个 MIR 任务上取得了当前最优(SOTA)性能,相比前代 CLaMP 2 和其他基线模型,如 CLAP、TTMR++,有显著提升。

跨模态音乐检索

在文本 - 音频、文本 - 乐谱等任务上,CLaMP 3 在WikiMT-X、MidiCaps、MusicCaps-Remake等基准数据集上的 MRR(Mean Reciprocal Rank)均超越基线:

文本 -ABC 检索:MRR 0.4498(提升 >10%)

文本 - 音频检索:MRR 0.1985(超越 CLAP 与 TTMR++)

表 2:英文文本到音乐检索任务的结果,涵盖多个基准数据集。WikiMT 和 MidiCaps 各包含 1,010 对样本,Song Describer Dataset ( SDD ) 包含 706 个音频和 1,106 条文本描述,MusicCaps-Remake ( MC-R ) 包含 2,777 对样本。MC-R 通过使用完整音频和来自 AudioSet 评估集的重写文本描述,避免了数据泄漏。

跨语言音乐检索

在非英语文本到音乐的检索任务中,CLaMP 3 展现了极强的跨语言泛化能力,即使在训练集中未见过的语言上,依然能取得优异表现。例如:

俄语 - 乐谱检索:MRR 0.3614

中文 - 音频检索:MRR 0.1459

芬兰语(未见语言)- 音频检索:MRR 0.1770

表 3:多语言文本到音乐检索任务的结果,基于 WikiMT-X 翻译后的背景注释。标有星号(*)的语言未包含在 M4-RAG 训练数据中。每种语言下方的 BLEU 分数通过 SeamlessM4T 模型对文本进行回译,并与原始英语文本进行对比计算。

无配对跨模态检索

在没有配对训练数据的情况下,CLaMP 3 依然可以进行跨模态检索,例如:

乐谱→音频(S → A):MRR 0.0578

音频→乐谱(A → S):MRR 0.0492

表 4:WikiMT-X 不同音乐模态配对的涌现跨模态检索结果。S:乐谱(ABC 记谱)、P:演奏信号(MIDI,由 ABC 转换)、A:音频录音。

结论:CLaMP 3 开启跨模态、跨语言 MIR 新时代

CLaMP 3 首次实现了乐谱、演奏信号、音频与多语言文本的统一表示学习,突破了 MIR 的跨模态与跨语言限制。

项目主页:https://sanderwood.github.io/clamp3

在线 Demo:https://huggingface.co/spaces/sander-wood/clamp3

GitHub 代码:https://github.com/sanderwood/clamp3

—  完  —

投稿请工作日发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

一键关注 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們