大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

僅1/70的數據量,多模态檢索效果卻更優! 智源發布BGE-VL,合成數據立大功

2025-03-06 简体 HK SG TW

今天小編分享的科學經驗:僅1/70的數據量,多模态檢索效果卻更優! 智源發布BGE-VL,合成數據立大功,歡迎閲讀。

BGE 系列模型自發布以來廣受社區好評。近日,智源研究院聯合多所高校開發了多模态向量模型 BGE-VL,進一步擴充了原有生态體系。

BGE-VL 在圖文檢索、組合影像檢索等主要多模态檢索任務中均取得了最佳效果。BGE-VL 借助大規模合成數據 MegaPairs 訓練而成。

這一設計具備以下兩大核心優勢 :

優異的可擴展性:MegaPairs 結合多模态表征模型、多模态大模型和大語言模型,在海量圖文語料庫中高效挖掘多模态三元組數據。其算法能夠以極低成本持續生成多樣化且高質量的多模态三元組。本次發布的版本涵蓋 2600 萬條樣本,為多模态檢索模型的訓練提供了大規模、高價值的數據支持。

卓越的數據質量:相較于傳統多模态數據,MegaPairs 僅需 1/70 的數據量即可實現更優的訓練效果。利用該合成數據,智源訓練了多模态檢索模型 BGE-VL,顯著提升了多個主流多模态檢索基準的性能。

BGE-VL 的技術報告已發布,相關數據、模型及代碼資源将陸續向社區全面開放。

MegaPairs 構造

在大模型時代,信息檢索需要滿足人們日益多樣化的需求,這種需求不僅體現在用户的多模态查詢輸入上,也體現在對多模态信息的需求上。例如,用户可能拍攝一張汽車外觀圖,并希望獲取該款汽車的指定信息。在這種情況下,多模态檢索器需要綜合理解用户的影像和文本指令,并從多種模态的信息中檢索出最相關的内容。

然而,現有的多模态檢索模型通常基于單一形式的跨模态配對數據(如影像 - 文本對)進行訓練,這使得它們難以處理復雜的組合模态輸入。近年來,指令微調技術在文本檢索和大語言模型等領網域已經證明了其增強多任務能力的有效性。然而,以往的多模态檢索指令數據集大多依賴人工标注,限制了大規模多樣化數據的獲取。

為解決這一限制,智源 BGE 團隊創新性地提出了MegaPairs 數據合成方法。該方法通過從現有大規模影像數據集中挖掘多樣的關聯影像對,并利用開源多模态大模型和大語言模型進行自動化指令生成,從而構建出高質量、可擴展、泛化性強的多模态檢索指令微調數據集。團隊基于 MegaPairs 的高質量數據,訓練并開源多模态向量模型 BGE-VL 系列,實現了當前最佳的多模态檢索能力。

MegaPairs 提出從現有大規模圖文語料庫中挖掘并構造大規模、高質量多模态檢索指令數據集。

具體地,MegaPairs 的構造主要分為兩個關鍵步驟:

(1)使用多種相似度模型從影像數據集中挖掘多樣的影像對;

(2)使用開源的多模态大模型和大語言模型合成開放網域檢索指令。

以下圖為例,MegaPairs 首先從大規模影像數據集中采樣一對影像 - 文本數據作為查詢數據。然後,利用多種影像和文本相似度模型,挖掘出多組關聯影像對(例如:同款汽車的外飾與内飾、同款汽車不同塗裝、同品牌汽車未來概念圖等)。接着,針對這些挖掘出的影像對,MegaPairs 采用兩階段标注方法:首先使用多模态大語言模型(MLLM)總結兩張圖片之間的關聯關系,然後使用大語言模型(LLM)撰寫最終的開放網域檢索指令。

值得注意的是,MegaPairs 完全基于開源數據集和開源模型進行自動化構建和标注。通過引入多個相似度模型和兩階段标注方法,MegaPairs 能夠在無需人工參與的情況下,擴展性地生成大規模、高質量且多樣化的多模态檢索指令數據集。

△MegaPairs 多模态三元數據構造流程

基于上述流水線,MegaPairs 合成了超過 2600 萬條(查詢影像 , 查詢語句 , 目标影像)三元數據對。此外,鑑于 " 難負例 " 在訓練檢索模型的重要性,MegaPairs 對于每組挖掘的影像對數據都選取了其他相似圖片作為難負例。

BGE-VL 模型

基于 MegaPairs 合成的大規模多模态檢索指令數據集,智源 BGE 團隊訓練出了 3 款不同尺寸的多模态檢索模型。包括基于 CLIP 架構的 BGE-VL-Base 和 BGE-VL-Large,以及基于多模态大模型架構的 BGE-VL-MLLM。團隊發現,僅僅使用 MegaPairs 三元組數據訓練,模型就在多個任務上實現了遠超以往方法的的領先性能優勢。

綜合多模态嵌入任務性能表現

團隊首先在 Massive Multimodal Embedding Benchmark(MMEB)上驗證了 BGE-VL 模型的性能。MMEB 是一個綜合性基準測試,涵蓋了 4 大類共計 36 個不同多模态嵌入評測任務:分類(Classification)、視覺問答(Visual Question Answering)、檢索(Retrieval)和視覺定位(Visual Grounding)。

△MMEB 評測任務示例圖

在零樣本性能表現方面,BGE-VL 在 MMEB 的多個任務類型和整體評分均實現了最優性能。更令人興奮的是,MegaPairs 并未包含 MMEB 中的絕大部分任務類型數據(例如 Classification、VQA,Grounding),卻能夠實現良好的任務泛化能力。

根據 MMEB 的設定,團隊進一步在 MMEB 的分布内(IND)集合(包含 36 個評測任務中的 20 個任務)上對 BGE-VL 進行了有監督微調。實驗結果顯示,BGE-VL 的平均性能指标相比直接在 MMEB 上微調的 VLM2Vec ( LLaVA-1.6 ) 模型高出 9.1 個百分點。同時,在分布外(OOD)數據集上的平均表現也比兩版 VLM2Vec 分别高出 11.6% 和 7.1%。這些結果證明了 MegaPairs 數據的高質量和泛化能力。

組合影像檢索性能

傳統影像檢索通常采用 " 文搜圖 " 或 " 圖搜圖 " 的方式。近年來,組合影像檢索作為一種新興的影像搜索範式,允許用户同時輸入影像和搜索指令,實現更精準的影像檢索效果。這一方法被谷歌稱為 " 下一代影像搜索範式 "。

在當前主流的組合影像檢索評測集 CIRCO 上,BGE-VL 在不同模型尺寸上均顯著刷新了現有基準。大幅超越包括谷歌的 MagicLens 系列和英偉達的 MM-Embed 等對比基線。具體而言,BGE-VL-MLLM 較之前的 SOTA 模型提升了 8.1 個百分點。此外,BGE-VL-Base 模型以不到 1/50 的參數量超越了如 MM-Embed 和 E5-V 等大模型底座的多模态檢索器。這些實驗結果有力展示了 MegaPairs 數據的有效性。

團隊還對 MegaPairs 的可擴展性和數據質量進行了深入研究。如圖所示,一方面,随着 MegaPairs 數據規模的增加,BGE-VL 模型表現出一致的性能增長趨勢,證明了 MegaPairs 數據構造方法的良好可擴展性。

另一方面,與在 37M 閉源數據上訓練的 SOTA 模型 Google MagicLens 相比,MegaPairs 僅需 1/70 的數據規模(0.5M)即可實現顯著的性能優勢,證明了 MegaPairs 數據的高效性和高質量。

△MegaPairs 可擴展性分析:使用不同規模的 MegaPairs 數據訓練 BGE-VL-base 模型在各評測基準上的性能變化趨勢。虛線表示基于 CLIP-base 并在 37M MagicLens 數據集上訓練的 MagicLens-B 模型的性能。BGE-VL 檢索可視化結果

未來,智源将繼續探索 MegaPairs 與更豐富的多模态檢索場景結合,進一步打造更全能通用的多模态檢索器。

更多方法和實驗細節請參照論文。

論文地址:https://arxiv.org/abs/2412.14475

項目主頁:  https://github.com/VectorSpaceLab/MegaPairs

模型地址:  https://huggingface.co/BAAI/BGE-VL-MLLM-S1

* 本文系量子位獲授權刊載,觀點僅為原作者所有。

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們