今天小編分享的科學經驗:僅1/70的數據量,多模态檢索效果卻更優! 智源發布BGE-VL,合成數據立大功,歡迎閱讀。
BGE 系列模型自發布以來廣受社區好評。近日,智源研究院聯合多所高校開發了多模态向量模型 BGE-VL,進一步擴充了原有生态體系。
BGE-VL 在圖文檢索、組合影像檢索等主要多模态檢索任務中均取得了最佳效果。BGE-VL 借助大規模合成數據 MegaPairs 訓練而成。
這一設計具備以下兩大核心優勢 :
優異的可擴展性:MegaPairs 結合多模态表征模型、多模态大模型和大語言模型,在海量圖文語料庫中高效挖掘多模态三元組數據。其算法能夠以極低成本持續生成多樣化且高質量的多模态三元組。本次發布的版本涵蓋 2600 萬條樣本,為多模态檢索模型的訓練提供了大規模、高價值的數據支持。
卓越的數據質量:相較于傳統多模态數據,MegaPairs 僅需 1/70 的數據量即可實現更優的訓練效果。利用該合成數據,智源訓練了多模态檢索模型 BGE-VL,顯著提升了多個主流多模态檢索基準的性能。
BGE-VL 的技術報告已發布,相關數據、模型及代碼資源将陸續向社區全面開放。
MegaPairs 構造
在大模型時代,信息檢索需要滿足人們日益多樣化的需求,這種需求不僅體現在用戶的多模态查詢輸入上,也體現在對多模态信息的需求上。例如,用戶可能拍攝一張汽車外觀圖,并希望獲取該款汽車的指定信息。在這種情況下,多模态檢索器需要綜合理解用戶的影像和文本指令,并從多種模态的信息中檢索出最相關的内容。
然而,現有的多模态檢索模型通常基于單一形式的跨模态配對數據(如影像 - 文本對)進行訓練,這使得它們難以處理復雜的組合模态輸入。近年來,指令微調技術在文本檢索和大語言模型等領網域已經證明了其增強多任務能力的有效性。然而,以往的多模态檢索指令數據集大多依賴人工标注,限制了大規模多樣化數據的獲取。
為解決這一限制,智源 BGE 團隊創新性地提出了MegaPairs 數據合成方法。該方法通過從現有大規模影像數據集中挖掘多樣的關聯影像對,并利用開源多模态大模型和大語言模型進行自動化指令生成,從而構建出高質量、可擴展、泛化性強的多模态檢索指令微調數據集。團隊基于 MegaPairs 的高質量數據,訓練并開源多模态向量模型 BGE-VL 系列,實現了當前最佳的多模态檢索能力。
MegaPairs 提出從現有大規模圖文語料庫中挖掘并構造大規模、高質量多模态檢索指令數據集。
具體地,MegaPairs 的構造主要分為兩個關鍵步驟:
(1)使用多種相似度模型從影像數據集中挖掘多樣的影像對;
(2)使用開源的多模态大模型和大語言模型合成開放網域檢索指令。
以下圖為例,MegaPairs 首先從大規模影像數據集中采樣一對影像 - 文本數據作為查詢數據。然後,利用多種影像和文本相似度模型,挖掘出多組關聯影像對(例如:同款汽車的外飾與内飾、同款汽車不同塗裝、同品牌汽車未來概念圖等)。接着,針對這些挖掘出的影像對,MegaPairs 采用兩階段标注方法:首先使用多模态大語言模型(MLLM)總結兩張圖片之間的關聯關系,然後使用大語言模型(LLM)撰寫最終的開放網域檢索指令。
值得注意的是,MegaPairs 完全基于開源數據集和開源模型進行自動化構建和标注。通過引入多個相似度模型和兩階段标注方法,MegaPairs 能夠在無需人工參與的情況下,擴展性地生成大規模、高質量且多樣化的多模态檢索指令數據集。
△MegaPairs 多模态三元數據構造流程
基于上述流水線,MegaPairs 合成了超過 2600 萬條(查詢影像 , 查詢語句 , 目标影像)三元數據對。此外,鑑于 " 難負例 " 在訓練檢索模型的重要性,MegaPairs 對于每組挖掘的影像對數據都選取了其他相似圖片作為難負例。
BGE-VL 模型
基于 MegaPairs 合成的大規模多模态檢索指令數據集,智源 BGE 團隊訓練出了 3 款不同尺寸的多模态檢索模型。包括基于 CLIP 架構的 BGE-VL-Base 和 BGE-VL-Large,以及基于多模态大模型架構的 BGE-VL-MLLM。團隊發現,僅僅使用 MegaPairs 三元組數據訓練,模型就在多個任務上實現了遠超以往方法的的領先性能優勢。
綜合多模态嵌入任務性能表現
團隊首先在 Massive Multimodal Embedding Benchmark(MMEB)上驗證了 BGE-VL 模型的性能。MMEB 是一個綜合性基準測試,涵蓋了 4 大類共計 36 個不同多模态嵌入評測任務:分類(Classification)、視覺問答(Visual Question Answering)、檢索(Retrieval)和視覺定位(Visual Grounding)。
△MMEB 評測任務示例圖
在零樣本性能表現方面,BGE-VL 在 MMEB 的多個任務類型和整體評分均實現了最優性能。更令人興奮的是,MegaPairs 并未包含 MMEB 中的絕大部分任務類型數據(例如 Classification、VQA,Grounding),卻能夠實現良好的任務泛化能力。
根據 MMEB 的設定,團隊進一步在 MMEB 的分布内(IND)集合(包含 36 個評測任務中的 20 個任務)上對 BGE-VL 進行了有監督微調。實驗結果顯示,BGE-VL 的平均性能指标相比直接在 MMEB 上微調的 VLM2Vec ( LLaVA-1.6 ) 模型高出 9.1 個百分點。同時,在分布外(OOD)數據集上的平均表現也比兩版 VLM2Vec 分别高出 11.6% 和 7.1%。這些結果證明了 MegaPairs 數據的高質量和泛化能力。
組合影像檢索性能
傳統影像檢索通常采用 " 文搜圖 " 或 " 圖搜圖 " 的方式。近年來,組合影像檢索作為一種新興的影像搜索範式,允許用戶同時輸入影像和搜索指令,實現更精準的影像檢索效果。這一方法被谷歌稱為 " 下一代影像搜索範式 "。
在當前主流的組合影像檢索評測集 CIRCO 上,BGE-VL 在不同模型尺寸上均顯著刷新了現有基準。大幅超越包括谷歌的 MagicLens 系列和英偉達的 MM-Embed 等對比基線。具體而言,BGE-VL-MLLM 較之前的 SOTA 模型提升了 8.1 個百分點。此外,BGE-VL-Base 模型以不到 1/50 的參數量超越了如 MM-Embed 和 E5-V 等大模型底座的多模态檢索器。這些實驗結果有力展示了 MegaPairs 數據的有效性。
團隊還對 MegaPairs 的可擴展性和數據質量進行了深入研究。如圖所示,一方面,随着 MegaPairs 數據規模的增加,BGE-VL 模型表現出一致的性能增長趨勢,證明了 MegaPairs 數據構造方法的良好可擴展性。
另一方面,與在 37M 閉源數據上訓練的 SOTA 模型 Google MagicLens 相比,MegaPairs 僅需 1/70 的數據規模(0.5M)即可實現顯著的性能優勢,證明了 MegaPairs 數據的高效性和高質量。
△MegaPairs 可擴展性分析:使用不同規模的 MegaPairs 數據訓練 BGE-VL-base 模型在各評測基準上的性能變化趨勢。虛線表示基于 CLIP-base 并在 37M MagicLens 數據集上訓練的 MagicLens-B 模型的性能。BGE-VL 檢索可視化結果
未來,智源将繼續探索 MegaPairs 與更豐富的多模态檢索場景結合,進一步打造更全能通用的多模态檢索器。
更多方法和實驗細節請參照論文。
論文地址:https://arxiv.org/abs/2412.14475
項目主頁: https://github.com/VectorSpaceLab/MegaPairs
模型地址: https://huggingface.co/BAAI/BGE-VL-MLLM-S1
* 本文系量子位獲授權刊載,觀點僅為原作者所有。