只給一張圖，AI找到對應合适BGM，央音清華等構建全球化音樂信息檢索新範式

今天小編分享的科學經驗：只給一張圖，AI找到對應合适BGM，央音清華等構建全球化音樂信息檢索新範式，歡迎閲讀。

給 AI 看一眼圖，它就能找到對應音樂。

比如一艘海上航行的海盜船，啪一下，就檢索到了加勒比海盜經典配樂。

音樂信息檢索（Music Information Retrieval, MIR）一直面臨着多模态數據的復雜性和多語言文本理解的挑戰。

當前的 MIR 系統主要關注特定模态對（如文本 - 音頻或文本 - 樂譜），限制了跨模态理解的潛力。

同時，現有的數據集主要以英語為主，缺乏多語言覆蓋，導致 MIR 在非英語環境下的泛化能力受限。

為此，來自中央音樂學院、清華大學、香港科技大學大學、上海紐約大學等機構的研究者推出CLaMP 3（Contrastive Language-Music Pre-training）——一個跨模态、跨語言的統一音樂信息檢索框架。

通過對比學習，CLaMP 3 首次實現了樂譜、演奏信号、音頻錄音等音樂模态與多語言文本的聯合對齊，使得不同模态之間可以通過文本橋接進行高效檢索。其多語言文本編碼器能夠适應從未見過的語言，在跨語言檢索任務上表現卓越。

CLaMP3 基于檢索增強生成（Retrieval-Augmented Generation, RAG）策略，構建了規模達到 2.31M 音樂 - 文本對的 M4-RAG 數據集，并結合詳細的音樂元數據，覆蓋27 種語言、194 個國家的音樂文化。此外，研究團隊還推出了WikiMT-X，一個由樂譜、音頻和多樣化文本描述組成的 1000 個樣本的基準數據集，推動跨模态音樂理解的研究。

實驗結果表明，CLaMP 3 在多個 MIR 任務上取得了當前最優性能，不僅大幅超越已有基線模型，還在跨模态、跨語言的檢索任務中展現了卓越的泛化能力。

圖 1：CLaMP 3 展現出強大的跨模态和跨語言泛化能力。監督對齊（實線箭頭）連接成對的模态，而湧現對齊（虛線箭頭）則彌合未對齊的模态。多語言文本編碼器使得在對齊過程中未見（灰色氣泡）的語言中也能進行檢索。

動機：MIR 需要真正的跨模态、跨語言對齊

音樂是全球性的，但 MIR 的發展仍然面臨以下關鍵問題：

多模态數據對齊難度高：樂譜、MIDI（演奏信号）、音頻各自有獨特的數據表示方式，傳統方法難以統一處理不同模态。

多語言音樂信息檢索受限：現有數據集以英語為主，缺乏對其他語言的覆蓋，導致 MIR 模型難以泛化到全球音樂語境。

缺乏高質量的多模态 - 多語言數據：音樂文本數據多為簡短的标籤，缺乏詳細的長文本描述，限制了 MIR 系統的理解能力。

為解決上述問題，CLaMP 3 構建了一個通用的跨模态 - 跨語言檢索框架，通過對比學習構建共享表示空間，使得不同模态的音樂數據可以在無配對訓練數據的情況下進行檢索。

方法：對比學習 + 檢索增強生成，構建統一音樂表示空間

CLaMP 3 采用對比學習（Contrastive Learning）作為核心優化目标，通過多階段訓練策略對齊不同模态，并利用檢索增強生成（RAG）擴展高質量音樂 - 文本數據。

圖 2：CLaMP 3 采用對比學習來對齊不同模态的特征。樂譜和演奏信号被分割為單元（小節或 MIDI 消息），并由符号音樂編碼器處理，而音頻則被分割為 5 秒片段，并通過音頻特征提取器和音頻音樂編碼器處理。符号和音頻表示均與來自多語言文本編碼器的文本表示對齊。

訓練策略：多階段模态對齊

CLaMP 3 的訓練策略借鑑了 ImageBind 的思想，采用四階段跨模态對齊：

文本與樂譜對齊：訓練文本編碼器與樂譜編碼器。

文本與音頻對齊：凍結文本編碼器，訓練音頻編碼器。

優化文本對齊：解凍文本編碼器，細調文本 - 音頻對齊。

修正跨模态漂移：重新對齊文本 - 樂譜，以減少前一階段的對齊偏差。

這一策略确保了所有模态最終映射到統一的表示空間，避免模态漂移問題。

核心組件：多模态 Transformer 編碼器

CLaMP 3 由多個基于 Transformer 的編碼器組成，每個編碼器針對不同模态進行處理，以确保跨模态對齊和信息融合。

多語言文本編碼器

CLaMP 3 的文本編碼器基于XLM-R-base，一個預訓練于 2.5TB CommonCrawl 數據的模型，涵蓋100 種語言。該編碼器具有12 層 Transformer，隐藏維度為768，具備強大的跨語言泛化能力，可用于處理未見語言的數據。

符号音樂編碼器

CLaMP 3 采用M3作為符号音樂編碼器，它是一種自監督學習模型，可處理多軌ABC 記譜格式和MIDI。

輸入格式：ABC 以小節（bar）為部門分割，MIDI 以消息（message）為部門分割。

模型結構：12 層 Transformer，隐藏層大小 768。

處理能力：支持 512 個片段（patches）或 32,768 個字元，可捕捉復雜的符号音樂模式。

音頻音樂編碼器

CLaMP 3 的音頻編碼器是一個12 層 Transformer，隐藏維度同樣為768，專為音樂音頻處理而訓練。

特征提取：利用 MERT-v1-95M 預訓練特征，MERT 作為凍結的音頻特征提取器。

輸入部門：将音頻分割為 5 秒片段，并計算所有 MERT 層的時間步均值，生成單個嵌入向量。

處理能力：最多支持 128 個嵌入向量（對應 640 秒音頻），能夠建模長時音樂特征。

統一表示空間

所有編碼器的輸出都經過線性層和平均池化（average pooling）處理，最終生成全局語義特征，确保不同模态數據在共享表示空間中對齊。

數據集：M4-RAG

CLaMP 3 的訓練依賴于大規模的高質量多模态多語言音樂數據集M4-RAG。

數據來源

CLaMP 3 結合符号音樂數據和音頻音樂數據以構建多模态學習基礎：

符号音樂數據：

WebMusicText（WebMT）：1.4M ABC 記譜檔案。

Million MIDI Dataset（MMD）：1.5M MIDI 檔案。

數據轉換：MMD 轉換為 ABC，WebMT 轉換為 MIDI，最終形成 3M 統一格式的符号音樂數據。

音頻音樂數據：

從網絡收集 1.8M 音軌，總計 16 萬小時音頻，并預提取音頻特征以減少計算成本。

元數據處理

CLaMP 3 依賴音樂标題（Title）作為主要檢索信号，通過檢索增強生成（RAG）從 Web 獲取豐富的元數據，包括風格、标籤、背景信息等，最終借助 Qwen2.5-72B 構建M4-RAG：

數據量：2.31M 元數據條目。

音樂 - 文本對齊：

ABC- 文本：0.58M

MIDI- 文本：0.17M

音頻 - 文本：1.56M

元數據涵蓋短文本（如流派、标籤）和長文本（如背景介紹、音樂分析），提供全面的音樂描述信息。

表 1：M4-RAG 的元數據概覽，按基本信息、注釋和翻譯進行分類。在注釋（Annotations）部分，地區（Region）和語言（Language）以英語書寫，其他資料欄遵循對應的語言規範。

語言 & 地理覆蓋

M4-RAG涵蓋 27 種語言，其中大部分元數據原始語言為英語。

翻譯增強：使用Qwen2.5-72B進行翻譯，增加低資源語言的數據量（如馬來語、緬甸語）。

全球覆蓋：數據來源于194 個國家，涵蓋主流音樂市場及多樣化的地網域音樂風格。

圖 3：M4-RAG 中原始數據和翻譯數據的語言分布，覆蓋 27 種語言。

圖 4：M4-RAG 中音樂曲目的國家分布，涵蓋 194 個國家。

實驗：CLaMP 3 在跨模态、跨語言檢索上超越現有 SOTA

CLaMP 3 在多個 MIR 任務上取得了當前最優（SOTA）性能，相比前代 CLaMP 2 和其他基線模型，如 CLAP、TTMR++，有顯著提升。

跨模态音樂檢索

在文本 - 音頻、文本 - 樂譜等任務上，CLaMP 3 在WikiMT-X、MidiCaps、MusicCaps-Remake等基準數據集上的 MRR（Mean Reciprocal Rank）均超越基線：

文本 -ABC 檢索：MRR 0.4498（提升 >10%）

文本 - 音頻檢索：MRR 0.1985（超越 CLAP 與 TTMR++）

表 2：英文文本到音樂檢索任務的結果，涵蓋多個基準數據集。WikiMT 和 MidiCaps 各包含 1,010 對樣本，Song Describer Dataset ( SDD ) 包含 706 個音頻和 1,106 條文本描述，MusicCaps-Remake ( MC-R ) 包含 2,777 對樣本。MC-R 通過使用完整音頻和來自 AudioSet 評估集的重寫文本描述，避免了數據泄漏。