今天小編分享的科學經驗:告别“圖文不符”!FG-CLIP實現細粒度跨模态對齊,360開源模型重塑AI視覺理解,歡迎閱讀。
CLIP 的 " 近視 " 問題,被 360 搞定了。
360 人工智能研究院最新圖文跨模态模型FG-CLIP,宣布以 " 長文本深度理解 " 和 " 細粒度視覺比對 " 雙突破,徹底解決了傳統 CLIP 模型的 " 視覺近視 " 問題,能夠精準識别局部細節。
具體怎麼個說法?先來個視力大挑戰:找一找右邊的哪句話,正确描述了左邊影像裡的内容?
正确答案是:"A light brown wood stool(一個淺棕色的木凳子)",注意看,這個木凳子位于畫面的中央偏右,悄悄隐藏在狗狗的身後。
可以發現,4 個常用模型—— CLIP、EVACLIP、SIGLIP、FINE-CLIP 基于左側圖片選出的最匹配的文本描述是:A blue dog with a white colored head。
顯然這個描述是錯誤的,這就是 CLIP 的 " 視覺近視 " 問題:會因為對比損失傾向于拉近全局影像與文本的嵌入,而非局部區網域的對齊,削弱了細粒度特征學習。
而 FG-CLIP 則精準命中了答案。
實驗結果顯示,FG-CLIP 在細粒度理解、開放詞匯對象檢測、長短文本圖文檢索以及通用多模态基準測試等下遊任務中均顯著優于原始 CLIP 和其他最先進方法。
在 12 個下遊任務上,FG-CLIP 相比現有模型在關鍵的長文本理解 + 細粒度比對上實現了大幅突破。
360 人工智能研究院還表示,将全面開源模型及其相關數據。
視覺語言模型面向的問題
2021 年,OpenAI 發布 CLIP 圖文跨模态模型,通過對比學習,首次實現了大規模影像 - 文本對齊,開啟了多模态預訓練大模型的新紀元。它通過對比影像與文本的嵌入空間,使模型能夠完成零樣本分類、影像檢索等任務。
但是 CLIP 與後面發展的模型,在實際應用中依然面臨以下的制約:
文本長度限制:CLIP 的文本編碼器僅支持 77 個 token,難以處理長文本的細節描述(如 " 一只紅色的陶瓷茶杯,杯口有輕微磨損 ")。
全局對齊的盲點:CLIP 将影像與文本整體對齊,忽略了局部區網域的細粒度信息(如茶杯的把手形狀、杯身圖案)。
負樣本的不足:現有數據集中,負樣本(不匹配的影像 - 文本對)多為粗略的類别錯誤,缺乏對細微差異的區分能力。
對長文本細節描述理解的重要性
提供豐富的背景信息與復雜查詢能力:長文本能夠提供詳細的背景信息,包括動作狀态、對象屬性及變化過程等,這對于全面理解事件至關重要。
相比短文本分析,長文本允許綜合查找基于多個條件(如物體、人物特征)的信息,支持更加復雜的查詢需求。這使得模型不僅能識别發生了什麼,還能理解事件的全貌及其上下文。
支持跨模态深度語義匹配與融合能力:跨模态模型需要在不同模态間建立有效的語義對應關系。
長文本中的多層次語義信息(如主題、段落、句子乃至詞匯層面的意義)可以幫助模型更精确地進行語義匹配和特征融合。
在圖文檢索任務中,長文本描述可以涵蓋從全局場景到局部細節的全面信息,使得模型能夠在多個層次上與影像特征進行比對和匹配,從而提升檢索的準确性和相關性。
對局部區網域細粒度信息進行準确分析的重要性
細節捕捉:局部影像特征往往包含了區分不同對象的關鍵信息。
例如,在對不同人物進行分析時,着裝、動作等屬性差别對于區分個體至關重要。準确分析這些局部特征可以顯著提高識别系統的準确性。
復雜環境适應性:在復雜的背景或低質量影像中,局部特征可以幫助算法聚焦于最重要的信息,忽略幹擾因素。
在實際應用中,目标對象經常會被其他物體部分遮擋。在這種情況下,全局特征可能不足以描述對象,而局部特征則顯得尤為重要。
通過對局部特征的精确分析,系統能夠有效地識别出未被遮擋的部分,并利用這些信息來推斷整個對象的狀态。
局部影像特征屬性的準确分析:在提升識别精度、增強環境理解、支持高級别應用、改進用戶體驗以及保障安全性等方面具有核心重要性。
通過精确解析這些細節信息,可以實現更智能、更可靠的系統性能,無論是在監控、自動駕駛、產品質量控制還是其他需要細致影像分析的領網域中,都能發揮關鍵作用。
對影像 / 文本的細微差異實現準确理解的重要性
增強模型的魯棒性和泛化能力:準确區分影像和文本中的細微差别對于增強模型的魯棒性和泛化能力至關重要。
細粒度的理解使模型能夠區分在視覺或語義上相似但存在細微差異的對象、場景或概念。
這種能力對于現實世界的應用非常重要,因為在不同的光照、角度或背景下,對象可能會有細微的變化。确保模型能夠在各種復雜場景中可靠運行。
提升下遊任務的精度:精确識别細微差異對提高下遊任務(如影像描述生成、視覺問答和醫學影像診斷)的準确性至關重要。
例如,在視覺問答中,識别影像中的微小細節并理解其與問題的相關性是正确回答問題的關鍵。能否準确捕捉影像中的細微差異直接影響到系統的性能和用戶體驗。
同樣,在自然語言處理中,識别文本中的細微差異可以顯著提高情感分析和信息檢索等任務的表現
模型方法
FG-CLIP 在傳統雙編碼器架構基礎上采用兩階段訓練策略,有效提升了視覺語言模型的細粒度理解能力。
首階段通過全局對比學習實現圖文表征的初步對齊;次階段引入區網域對比學習與難細粒度負樣本學習,利用區網域 - 文本标注數據深化模型對視覺細節的感知能力,從而在保持全局語義理解的同時實現了對局部特征的精準捕捉。
全局對比學習
全局對比學習通過整合多模态大模型生成的長描述,顯著增強了模型的細粒度理解能力。
這種方法不僅生成了内容豐富的長描述,還提供了更完整的上下文信息和更精準的細節描述。
通過引入長描述,模型得以在全局層面感知和匹配語義細節,從而大幅提升了其上下文理解能力。
同時,FG-CLIP 保留了原有的短描述 - 影像對齊機制,使長短描述形成互補。
這種雙軌并行的策略使模型既能從長描述中獲取復雜的語義信息,又能從短描述中把握核心概念,從而全面提升了模型對視覺信息的理解和處理能力。
局部對比學習
局部對比學習通過精準對齊影像局部區網域與對應文本描述,實現細粒度的視覺 - 語言關聯。
具體而言,FG-CLIP 首先運用 RoIAlign 從影像中精确提取區網域特征,繼而對每個檢測區網域施加平均池化操作,獲取一組富有代表性的區網域級視覺表征。
這些局部特征随後與預先構建的細粒度文本描述進行對比學習,促使模型建立區網域視覺内容與文本語義之間的精确映射關系,從而掌握更為細致的跨模态對齊能力。
區網域級難負樣本對比學習
針對細粒度負樣本稀缺這一挑戰,FG-CLIP 提出了一種難細粒度負樣本學習方法。
FG-CLIP 将語義相近但與正樣本存在細微差異的樣本定義為難負樣本,并通過對邊界框描述進行屬性層面的微調和重寫來構建這些樣本。
為了充分利用難細粒度負樣本提供的判别信息,FG-CLIP 在損失函數中引入了特定的細粒度負樣本學習策略。
在訓練過程中,模型需要同時計算區網域特征與正樣本描述及其對應負樣本描述之間的相似度,從而學習更精細的視覺 - 語言對齊關系。
數據構建通過 LMM 進行詳細的影像描述重寫
在初始訓練階段,FG-CLIP 采用了經過增強優化的 LAION-2B 數據集,其中的影像标注經由 CogVLM2-19B 重新生成。
這種改進顯著提升了數據質量,使描述更加精确和内容豐富。
傳統 LAION-2B 數據集往往采用籠統的描述方式,難以支持精細化任務的需求。
以鳥類影像為例,原始标注可能僅為 " 一只鳥 ",而忽略了物種特征和環境細節。
通過引入先進的多模态大模型,FG-CLIP 生成的描述不僅準确識别目标對象,還涵蓋了對象特征、行為模式及場景關聯等多維信息。
舉例而言,簡單的 " 一只鳥 " 被優化為 " 一只紅翼黑鳥栖息在公園的樹枝上 ",大幅提升了描述的信息密度。
借助 160 × 910B 規模的 NPU 計算集群,FG-CLIP 在 30 天内完成了全部數據處理工作。
實驗結果顯示,這種優化顯著提升了模型在多個任務上的表現,充分證明了高質量文本标注對提升模型精确度和語境理解能力的關鍵作用。
創建高質量的視覺定位數據
對于訓練的第二階段,FG-CLIP 開發了一個高質量的視覺定位數據集,包含精确的區網域特定描述和具有挑戰性的細粒度負樣本。
FG-CLIP 根據 GRIT 提供的影像來制作整個數據集。
這一過程首先使用 CogVLM2-19B 生成詳細的影像描述,确保描述全面且細膩,能夠捕捉每張影像的全部背景信息。随後,FG-CLIP 使用 SpaCy 解析這些描述并提取出指代表達。
接着,将影像和指代表達輸入預訓練的開放詞匯檢測模型,這裡采用 Yolo-World,以獲得相應的邊界框。
通過非極大值抑制消除重疊的邊界框,僅保留預測置信度得分高于 0.4 的邊界框。
這一過程產生了 1200 萬張影像和 4000 萬個帶有精細區網域描述的邊界框。
為生成高質量的細粒度負樣本,FG-CLIP 在維持對象名稱不變的前提下,對邊界框描述的屬性進行精細調整。
具體而言,FG-CLIP 借助 Llama-3.1-70B 大語言模型,為每個正樣本構建 10 個對應的負樣本。
為提升描述的可讀性,FG-CLIP 移除了分号、逗号和換行符等标點符号。
經過對 3,000 個負樣本的質量評估,98.9% 的樣本達到預期标準,僅 1.1% 被判定為噪聲數據,這一比例符合無監督方法的可接受範圍。
這種方法產生的細微變化更貼近現實場景,能夠更好地模拟物體在保持基本類目相似的同時,具體細節存在差異的情況。
這項大規模數據集由 1200 萬張高質量影像構成,每張影像都配備精确的語義描述。
其中包含 4000 萬個邊界框标注,每個邊界框都附帶詳盡的區網域描述,同時還整合了 1000 萬個經過篩選的難細粒度負樣本。
數據處理階段調用了 160 × 910B 算力的 NPU 集群,歷時 7 天高效完成。
這套豐富而系統的數據集顯著提升了模型識别精細特征的能力,為 FG-CLIP 的訓練奠定了扎實基礎,使其在視覺與文本特征的細粒度理解方面表現卓越。
實驗效果 - 量化指标細粒度識别
FG-CLIP 基于 FG-OVD 數據集對開源影像 - 文本對齊模型進行了系統評估。
與 MSCOCO 和 Flickr 等聚焦整體匹配的傳統基準不同,FG-OVD 專注于考察模型識别和定位影像局部區網域的精細化能力。
在評估過程中,每個目标區網域都配備了一個精準描述和十個經過精心設計的負向樣本,這些負向樣本通過對正确描述的策略性修改而生成。
FG-OVD 數據集劃分為四個難度遞進的子集,其區分度主要體現在待匹配文本之間的相似程度上。
具體而言,hard、medium 和 easy 子集分别通過替換一個、兩個和三個屬性詞來構造負樣本,而 trivial 子集則采用完全無關的文本描述,形成了一個從細微差别到顯著差異的評估體系。
由表中可以看到,FG-CLIP 相對于其他方法,在各項指标上都能獲得顯著提升,這也證明了該方法在細粒度理解上的能力。
區網域識别
FG-CLIP 在 COCO-val2017 數據集上開展零樣本測試,評估模型識别局部信息的能力,測試方案參照 FineCLIP 和 CLIPSelf。
這項評估着重考察模型僅依靠文本描述對邊界框内目标進行分類的表現。
具體實現中,FG-CLIP 利用數據集中的邊界框标注,結合 ROIAlign 技術提取局部區網域的密集特征表示。
在測試階段,将所有類别标籤作為候選文本輸入,對每個邊界框區網域進行匹配和分類,并通過 Top-1 和 Top-5 準确率進行性能評估。FG-CLIP 同樣在這個下遊任務上取得了最好的結果。
開放詞匯目标檢測
為了進一步評估 FG-CLIP 的方法的細粒度定位能力,FG-CLIP 被采用作為下遊開放詞匯檢測任務的 Backbone。
具體來說,FG-CLIP 采用了一個兩階段檢測架構 F-VIT,并在訓練中凍結了視覺編碼器。
從表格中可以看出,FG-CLIP 在開放詞匯目标檢測任務上表現更加突出,證明了經過高質量數據和優化方法訓練的模型能夠在更深層次的任務上取得優越的性能。
圖文檢索 / 分類結果
為了全面評估影像力度的任務,FG-CLIP 對長标題和短标題影像文本檢索任務以及零樣本影像分類任務進行了實驗。
如表所示,FG-CLIP 在長 / 短标題影像 - 文本檢索任務中都取得了顯著的性能提升。
與旨在提高細粒度識别能力的 Long-CLIP 和 FineCLIP 相比,FG-CLIP 在影像分類這種短文本 - 全圖問題上的準确率方面具有明顯優勢。該模型處理不同影像描述長度的能力突出了其在多模态匹配中的通用性和魯棒性。
實驗效果 - 可視化對比影像細節差異效果對比
FG-CLIP 針對文本輸入對影像特征進行了可視化。
圖中,暖色調(如黃色)表示相關性較高,而冷色調(如藍色)表示相關性較低。
首先是針對相同的輸入文本和影像,對不同模型的 ViT 特征進行比較,可以發現 FG-CLIP 在這種細粒度理解問題上表現更好。如圖中的第二行所示,當輸入 "Black nose" 時,FG-CLIP 可以對該小目标實現準确的識别。
在不同輸入文本下的可視化圖
FG-CLIP 同樣将不同的輸入文本和相同圖片做相關性分析。
可以發現,對于影像中的不同目标,FG-CLIP 都能給出準确的位置理解,這表明了該模型具有穩定的視覺定位和細粒度理解能力。
總結
FG-CLIP 在細粒度視覺理解領網域取得了突破性進展。
該模型創新性地整合了前沿圖文對齊技術,并基于大規模精選數據集和難細粒度負樣本學習策略,實現了對影像的多層次語義解析。
其獨特優勢在于能同時把握全局語境和局部細節,精準識别和區分細微特征差異。
大量實驗結果表明,FG-CLIP 在各類下遊任務中均展現出優異表現。
360 人工智能研究院表示:
為推動領網域發展,研究團隊決定将 FG-CLIP 相關的數據、代碼和預訓練模型陸續進行開源,相關内容将在 360 人工智能研究院的主頁和 GitHub 發布。
未來研究團隊的研究方向将聚焦于融合更先進的多模态架構,以及構建更豐富多元的訓練數據集,以進一步拓展細粒度視覺理解的技術邊界。
360 人工智能研究院主頁:
https://research.360.cn
Github:
https://github.com/360CVGroup
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
學術投稿請于工作日發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
點亮星标
科技前沿進展每日見