今天小編分享的科學經驗:1億圖文對!格靈深瞳開源RealSyn數據集,CLIP多任務性能刷新SOTA,歡迎閲讀。
新的億級大規模圖文對數據集來了,CLIP 達成新 SOTA!
格靈深瞳最新發布的高質量數據集RealSyn,不僅規模大——包含 1 億組圖文對,而且每張圖片都同時關聯多個真實和合成文本。
所有的影像和句子都基于冗餘進行了嚴格過濾,在确保數據質量的同時,引入基于簇的語義平衡采樣策略,構建了可滿足多樣工作需求的三種規模大小的數據集:15M、30M、100M。
這下 CLIP 終于可以大展身手了!
RealSyn 所展現的超強擴展性,以及在視覺語言表征學習中極為優越的表現,讓模型性能在多任務中達到了新的 SOTA。
目前,該數據集已全面開源,可點擊文末鏈接一鍵獲取~
以下是 RealSyn 的更多相關細節。
相關工作大規模預訓練數據集
近年來,多個從互聯網收集的大規模影像 - 文本數據集陸續發布。
最近還推出了幾個大規模圖文交錯文檔數據集。OBELICS 數據集使用全面的過濾策略,包括 1.41 億個網頁、3.53 億張相關圖片和從 Common Crawl 提取的 1150 億文本标記。
然而,由于數據格式的限制和訓練效率的低下,圖文交錯文檔目前不适用于視覺語言對比表示學習。
視覺語言預訓練
作為視覺語言預訓練領網域的開創性工作,CLIP 因其強大的零樣本識别能力和卓越的遷移學習表現而受到廣泛關注。受 CLIP 啓發,近年來誕生了大量視覺 - 語言預訓練研究。
SLIP 通過結合自監督學習與 CLIP 預訓練提高性能。DeCLIP 通過整合跨模态的多視角監督和來自相似對的最近鄰監督,提高了預訓練效率。為了減輕噪聲數據的影響,ALIP 引入了一種動态樣本權重分配的門控機制。
盡管這些方法取得了顯著的進展,但它們主要依賴于從互聯網上爬取的大規模影像 - 文本對。最近的研究表明,随着高質量影像 - 文本數據集的擴展,CLIP 的能力也在增強。因此迫切需要開發新的數據構建範式以進一步擴大高質量影像 - 文本數據的規模。
合成标題
最近的研究表明,從網站獲得的影像 - 文本對含有内在噪聲,這直接影響視覺 - 語言預訓練的有效性。
為提高現有數據集的質量,LaCLIP 利用大型語言模型的上下文學習能力重寫與每張圖片相關的文本描述。CapsFusion 使用大型語言模型精煉來自網絡的影像 - 文本對和合成标題信息,提高多模态預訓練數據的質量。類似地,DreamLIP 使用預訓練的大型多模态模型為 3000 萬張圖片生成詳細描述。
然而,這些方法主要關注合成數據的增強,忽視了現實世界數據的重要性。此外,這些方法生成的合成标題的多樣性和分布本質上受到所用生成模型能力的限制。
RealSyn 數據集真實世界數據抽取
為了将圖文交錯文檔轉換為視覺 - 語言表示學習的形式,團隊建立了一個真實世界數據提取 Pipeline 以提取高質量的影像和文本。
該流程包括三個步驟:數據提取、影像過濾和句子過濾。
數據提取:
團隊使用來自OBELICS 的 1.18 億個圖文交錯文檔作為主要數據源。所有影像都被提取并存儲在專用的影像數據庫中,句子則使用自然語言工具包(NLTK)進行分割,并存儲在單獨的句子數據庫中。這個過程共計從多模态文檔中抽取了3.36 億張影像和 21.3 億個句子。
影像過濾:
在提取了 3.36 億張影像後,團隊設計了一個兩階段的過濾過程,以提升數據質量并降低冗餘。
首先,丢棄符合以下任一條件的影像:
影像短邊長度少于 100 像素。
寬高比超過 3 或低于 1/3。
這一步去除了 5100 萬張低質量影像。
接下來,參考 CLIP-CID,使用 EVA02-CLIP E/14-plus 模型來提取影像嵌入,并應用 Union-Find 算法來消除感知和語義上的冗餘影像。這一步去除了額外的 8700 萬張影像,最終得到了一組精煉的1.98 億張高質量影像數據集。
句子過濾:
從圖文交錯文檔中提取了 21.3 億個句子後,研究人員基于質量、語義和冗餘進行嚴格過濾。
首先,根據以下标準來過濾低質量句子:
包含表情符号或 URL;
句子包含少于 3 個或多于 81 個單詞;
根據 CAT,保留至少具有 C1 復雜度并包含動作的樣本。
這一階段将語料庫規模從 21.3 億減少到 18.2 億。
然後,對剩餘的句子進行語義過濾,研究人員通過信息熵來排除掉語義信息較少的句子:
其中,表示句子中的單詞數,表示句子中的第個單詞,是整個語料庫中單詞的概率。
基于人類認知原則和經驗,過濾掉得分低于 0.3 的句子。為了進一步通過消除困難或模糊的句子來完善語料庫,研究人員使用 GTP2-large 來計算每個句子的困惑度分數:
其中,表示句子中 token 數量,表示給定前序 tokens 時第個 token 的似然概率。
研究人員保留困惑度分數在 30 到 200 之間的句子。經過整體語義過濾後,語料庫縮減至 11.6 億個句子。在最後階段,類似于冗餘影像過濾,對句子進行了感知和語義去重。
這一過程最終得到了一個包含大量現實世界知識的精煉語料庫,共計8.4 億個句子。
檢索和生成框架
在從文檔中提取高質量影像和句子後,團隊提出了一個高效且可擴展的框架,用于為每個影像檢索多個語義相關文本,并利用大型語言模型将檢索的真實文本與細粒度的視覺信息整合,生成合成文本。
框架的架構主要包括三個組件:文本語義聚類、層次化檢索和影像語義增強生成。
文本語義聚類:
為了有效地為每個影像檢索多個語義相關文本,首先使用EVA02-CLIP E/14-plus 模型對所有句子進行編碼。受 Unicom 啓發,研究人員利用标準的K-means 算法離線将 8.4 億個文本通過高效特征量化劃分為 200 萬個簇。
層次化檢索:
考慮到直接從 8.4 億個句子中檢索語義文本的計算開銷過高(在 8 個 A100 GPU 上超過 10,000 小時),團隊設計了一種層次檢索方法來優化計算效率。
首先執行簇間檢索,找到每個影像最相關的簇中心。然後,研究人員将共享相同簇中心的影像分組,并執行簇内檢索,以獲取多個語義相關句子。
這種方法能夠在 40 小時内使用 8 個 A100 GPU 完成對 1.98 億影像和 8.4 億句子的檢索。
影像語義增強生成:
盡管檢索到的真實文本表現出滿意的性能,但它們在捕捉細粒度視覺語義方面存在限制。為了解決這個問題,團隊引入了影像語義增強生成模塊。
該模塊最初采用 OFA 模型為每張圖片生成一個簡潔的标題。然後,團隊集成了開放集圖片标籤模型 RAM++,該模型提取對象檢測标籤。考慮到 RAM++ 僅支持 4000 個标籤,研究人員通過加入額外的 4000 個來自真實世界句子的标籤,将這個集合擴展到 8000 個标籤。
參考 CapsFusion,團隊利用 ChatGPT4 Turbo 将檢索到的真實文本與簡潔标題和圖片标籤合并,構建一個 10 萬條指令的數據集。随後,使用 LLaMA Factory 對 LLaMA3-8B 模型進行微調,并部署 vLLM 進行大規模推理。
最終,将 1.18 億多模态交錯文檔轉換為 1.98 億圖文對,其中每張圖片都與多個檢索到的真實文本和合成文本相關聯。
語義均衡采樣
為了進一步提升數據集的質量和多樣性,團隊在 1.98 億圖文對中進行語義均衡采樣。具體來説,使用 EVA02-CLIP E/14-plus 來編碼并計算影像和合成文本之間的餘弦相似性。
為了減少在預訓練期間因 OCR 相關或不匹配對的影響,研究人員過濾掉餘弦相似度高于 0.61 或低于 0.51 的 2970 萬對數據。受到 MetaCLIP 的啓發,還引入了一種簡單但高效的基于簇的語義平衡采樣策略,并将剩餘的 1.683 億對中的影像嵌入聚類到 100 萬個中心。
為了增強數據集的語義多樣性,團隊從超過這些阈值的簇中随機選擇 20,35 和 180 個樣本,同時保留較小簇中的所有樣本。這種方法最終構建了 RealSyn15M、RealSyn30M 和 RealSyn100M 數據集。
實驗實現細節
團隊最初從 OBELICS 收集了 1.18 億個交錯的影像 - 文本文檔作為主要數據源。并使用和來生成簡潔的标題和語義标籤。
為了驗證數據集的性能,他們受 LaCLIP 的啓發,預訓練标準 CLIP,監督文本随機從三個檢索到的真實文本和一個合成文本中選擇。
在預訓練期間,采用AdamW作為優化器,學習率為 1e-3,權重衰減為 0.2。參數和分别設為 0.9 和 0.98。輸入影像尺寸為 224 × 224,輸入文本序列長度為 77。温度參數初始化為 0.07。研究人員在 8 × A100(80G)GPU 上訓練 32 個周期,batch 大小為 4096。
為了驗證 RealSyn 數據集的有效性,團隊将 RealSyn 與之前的數據集在不同模型和數據規模上進行比較,将 RealSyn15M 與 DeCLIP 過濾的 YFCC15M 進行比較。遵循 ALIP 的方法,還與 LAION15M、LAION30M 和 LAION100M(從 LAION400M 随機選取的子集)進行比較。
主要結果
線性探測:
在下表中,展示了 ViT-B/32 模型在 20 個下遊數據集中的線性探測性能。
當在 1500 萬規模上預訓練時,RealSyn15M 在 20 個數據集中的 16 個中超過了 YFCC15M,平均性能提高了 6.9%。
此外,RealSyn15M 在 20 個數據集中的 18 個中表現優于 LAION15M,平均改進了 1.6%。當數據集擴展到 3000 萬和 1 億時,RealSyn 分别在 LAION 上實現了平均 1.3% 和 1.4% 的性能提升。
這些結果證明了 RealSyn 數據集在視覺 - 語言表示學習中的有效性。
零樣本遷移:
團隊使用與 SLIP 相同的提示模板,評估了 ViT-B/32 模型在 20 個分類基準測試中的零樣本遷移性能。如表所示,RealSyn15M 在 20 個數據集中的 18 個上超過了 YFCC15M,平均性能提高了 14.3%。
與 LAION15M 相比,RealSyn15M 在 20 個數據集中的 18 個上表現優異,平均改進了 5.2%。當數據集規模擴大到 3000 萬和 1 億時,RealSyn 分别比 LAION 實現了平均 3.5% 和 2.3% 的性能提升,凸顯了其效率和可擴展性。
零樣本圖文檢索:
在表中,展示了 ViT-B/32 模型在不同規模數據集上預訓練後的零樣本圖文檢索性能。
RealSyn 在所有評估指标上均取得了優異的結果。具體而言,RealSyn15M 在 Flickr30K 上将召回率提高了 35.8%&26%,在 MSCOCO 上提高了 22.5%&12.6%。RealSyn30M 在 Flickr30K 上将召回率提高了 16.4%&11.6%,在 MSCOCO 上提高了 12.3%&7.4%。
這種在跨模态檢索性能上的顯著提升表明,RealSyn 數據集通過利用真實和合成文本有效地改善了視覺 - 語言表示學習,從而實現了健壯的表示和增強的跨模态對齊。
零樣本魯棒性:
在下表中,展示了零樣本魯棒性性能。結果顯示,RealSyn 顯著提升了視覺 - 語言預訓練模型的魯棒性。
具體而言,與 LAION 相比,RealSyn 分别在 15M、30M 萬和 100M 的數據集上平均性能提高了 4.3%、4.2% 和 2.8%。
這一顯著的性能提升主要源自于使用檢索到的真實文本,這些文本不受生成模型限制,并且與 YFCC 和 LAION 相比具有更優越的概念多樣性,從而大幅增強了模型的魯棒性。
通過 MLLM 進行影像描述:
圖中展示了使用不同數據集(LAION 與 RealSyn)訓練的LLaVA-1.5在影像描述性能上的表現。
最初,團隊首先使用 LLaVA-1.5 的初始 558k 數據集将視覺特征映射到文本特征空間。然後,他們從 LAION 和 RealSyn 開發了一個影像描述數據集進行指令調優。具體來説,從每個數據集随機選擇 100 萬樣本,并進行了兩個周期的訓練。
由此可見,RealSyn 在 COCO2017 和 Flickr30k 基準測試的所有評估指标上均顯著優于 LAION。這一顯著的性能提升證實了 RealSyn 數據集的更高質量和更好的影像 - 文本對齊。
分析統計分析
基于主題的評估:
參考 MMC4 的方法,團隊在随機抽取的 100 萬影像 - 真實文本對上運行了 LDA,涵蓋 30 個主題。
下圖中展示了六個主題的比例和示例:動物、食物、飛機、花卉、汽車和地标。值得注意的是,數據集中與 " 花卉 " 和 " 汽車 " 主題相關的樣本極少,分别僅占總數的 0.4% 和 0.9%。
這種樣本的稀缺限制了模型充分學習這些概念的能力,從而在 Flower 和 Car 數據集的線性探針和零樣本遷移評估中影響了其性能。
豐富性評估:
圖中展示了來自 YFCC15、LAION、RealSyn-R1(檢索到的最相關真實文本)和 RealSyn-S1(基于 RealSyn-R1 的語義增強合成文本)的 1500 萬樣本的圖文相似性和文本令牌分布。
與從互聯網收集的數據集相比,即使在移除 OCR 數據之後,RealSyn 仍展示出穩健的相似性指标。此外,檢索到的真實文本和合成文本都包含更多的詞匯量,這可以提供更豐富的文本環境,從而增強視覺 - 語言表示學習。
多樣性評估:
RealSyn 是基于現實世界中交錯的圖文檔案構建的,包含了廣泛的多樣性信息。遵循之前的研究,團隊随機選擇了 20 萬樣本來計算标題中獨特實體的數量,以評估不同數據集的數據多樣性。
如圖所示,檢索到的真實文本和影像語義增強的合成文本均展示了更高數量的不同實體。這種多樣性豐富了數據集,有助于模型獲得全面的知識,并提升了性能和魯棒性。
數據縮放分析:
團隊從 RealSyn 數據集推導出數據縮放定律,證明了其在樣本規模上的可擴展性。具體來説,他們使用提議的數據集進行一系列視覺 - 語言預訓練,數據集規模從 12M 到 60M 不等,并且将每個性能指标拟合于對數函數的倒數,其中訓練樣本數為百萬。
基于這些初步實驗的拟合結果,将每個性能規模定律外推至 100M 樣本,并使用 RealSyn100M 數據集驗證其預測的規模趨勢,如圖所示。
值得注意的是,如方程中所示的系數所指示的那樣,這些性能規律也可能表明通過團隊提出的視覺 - 語言預訓練範式以及多模态交錯文檔,ViT-B/32 可能達到的模型能力的上限:
模型縮放分析:
為了進一步探索模型擴展能力,研究人員在圖中展示了三種模型的下遊任務性能。值得注意的是,與 LAION 相比,RealSyn 在線性探測、零樣本遷移和魯棒性的性能曲線上顯示出更陡峭的斜率,這表明其具有更優越的模型擴展能力。
消融實驗
語義平衡采樣的消融研究:
為了展示所提出的語義平衡采樣方法的有效性,團隊将其與随機采樣進行比較。如表所示,概念平衡采樣在線性探測、零樣本遷移和魯棒性中分别提高了 0.7%、1.1% 和 1.0% 的性能。
此外,團隊通過将 1500 萬樣本聚類到 100 萬個中心,使用不同的采樣方法可視化數據分布。如圖所示,來自語義平衡采樣的分布更為平滑,有助于學習長尾概念。
擴展到純影像:
研究人員發現本文所提出數據構建範式除了應用到圖文交錯文檔以外還可以直接用于純影像,為此他們在 ImageNet 上進行實驗。
首先從本文構建的句子數據庫中為每個 ImageNet 影像檢索語義相關的真實文本,并生成影像語義增強的合成文本。然後,随機從檢索到的真實文本和合成文本中選擇一個文本作為監督信号來對 ResNet50 進行預訓練。
與 SimCLR 在相同條件下進行比較分析顯示,使用團隊構建的數據,在 12 個數據集上的線性探測平均性能提高了 2.1%。
真實文本和合成文本消融實驗:
團隊進行了消融實驗來評估真實文本和合成文本數量變化對 CLIP-B/32 模型性能的影響。
如表所示,真實文本量從一增加到三,模型性能得到提升,這歸功于集成了廣泛的現實世界知識的文本增強。然而,将這一數量從三增加到五時,由于信息飽和和噪聲引入,性能略有下降。相反,合成文本的數量從一增加到五,性能逐漸下降,反映了噪聲引入的增加。
值得注意的是,僅使用真實文本進行訓練可以顯著提升性能,與使用 LAION15M 數據集的 69.8% 相比,達到了 71.2% 的準确率,突顯了現實世界知識在推進視覺 - 語言表征學習中的重要作用。
論文鏈接:https://arxiv.org/pdf/2502.12513
代碼鏈接:https://github.com/deepglint/RealSyn
項目鏈接:https://garygutc.github.io/RealSyn/
數據集鏈接:https://huggingface.co/datasets/Kaichengalex/RealSyn100M
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
學術投稿請于工作日發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
點亮星标
科技前沿進展每日見