打破紀錄！谷歌全網扒1000億影像文本對，ViT大佬坐鎮：數據Scaling潛力依舊

今天小編分享的科學經驗：打破紀錄！谷歌全網扒1000億影像文本對，ViT大佬坐鎮：數據Scaling潛力依舊，歡迎閱讀。

史上最大規模視覺語言數據集：1000 億影像 - 文本對！

什麼概念？

較此前紀錄擴大 10 倍。

這就是由谷歌推出的最新數據集WebLI-100B。

它進一步證明，數據 Scaling Law 還遠沒有到上限。

在英文世界之外的多元文化、多語言維度，1000 億規模數據集能更好覆蓋長尾場景，由此帶來明顯性能提升。

這意味着，想要構建更加多元的多模态大模型，千億級數據規模，将成為一個重要參考。

同時研究還進一步證明，CLIP 等模型的過濾篩選步驟，會對這種多元性提升帶來負面影響。

該研究由谷歌 DeepMind 帶來，一作為 Xiao Wang、 Ibrahim Alabdulmohsin。

作者之列中還發現了 ViT 核心作者翟曉華。2024 年 12 月，他在推特上官宣，将入職 OpenAI 蘇黎世實驗室。

數據規模越大對細節理解越好

論文主要工作有三方面。

驗證 VLMs 在 1000 億規模數據集上的效果

證明 1000 億規模數據集能增強 VLMs 文化多樣性、多語言能力以及減少不同子組之間的性能差異。

發現 CLIP 這類模型過濾篩選數據的過程會對無意中降低模型的文化多元性，在 1000 億規模數據集上亦是如此。

具體來看，研究人員從網絡上搜集了 1000 億影像 - 文本對，初步去除有害内容以及敏感信息。

然後使用 CLIP 模型對數據集進行質量評估，篩選出與影像内容高度對齊的影像 - 文本對。

他們訓練了一個分類器模型，對影像 - 文本進行對齊和錯位分類，并調整阈值以重新篩選數據集。為了評估多語言能力，還使用網頁的語言标籤來确定數據集中的語言分布。

為了評估不同數據規模對模型性能的影響，研究人員從 1000 億數據集中随機抽取了 1% 和 10% 的數據，分别創建了 10 億和 100 億規模的數據集。

同時為了提高低資源語言的代表性，研究人員對低資源語言進行了上采樣，将它們的占比從 0.5% 提高到 1%。

實驗方面，研究人員使用 SigLIP 模型在不同規模的數據集上進行對比視覺語言預訓練。

他們訓練了不同大小的模型（ViTB/16、ViT-L/16、ViT-H/14），并使用了大規模的批量大小和學習率調度。

從結果來看，1B 數據集訓練的模型在注意力圖上無法很好捕捉細節。10B 數據集有所改善，100B 數據集能更精準。

同時使用多語言 mt5 分詞器對文本進行分詞，并訓練了多種語言的模型。

在模型評估上，研究人員主要進行以下幾個維度分析：

傳統基準測試：多個傳統基準測試（如 ImageNet、COCO Captions 等）上評估。

文化多樣性：使用 Dollar Street、GeoDE 和 Google Landmarks Dataset v2 等數據集評估了模型在文化多樣性任務上的性能。

多語言能力：使用 Crossmodal-3600 數據集評估了模型在多語言任務上的性能。

公平性：評估了模型在不同子組（如性别、收入水平、地理區網域）上的性能差異，以評估模型的公平性。

結果顯示，從 100 億到 1000 億規模數據，在以西方文化為主的傳統基準測試上帶來的提升比較有限，但在多語言能力和公平性相關任務上顯著提高。

數據過濾可以提高模型在傳統任務上的性能，但可能會減少某些文化背景的代表性，從而限制數據集的多樣性。

此外，通過調整低資源語言的混合比例，可以顯著提高模型在低資源語言基準測試上的性能。

主創翟曉華已被 OpenAI 挖走

該研究的一作為 Xiao Wang 和 Ibrahim Alabdulmohsin。

Xiao Wang本科畢業于南京大學，碩士畢業于北京大學。

領英資料顯示，他畢業後先後任職于 IBM 中國開發實驗室、網易有道。2015 年加入谷歌 DeepMind 至今，職位是高級軟體工程師，主要從事視覺語言研究。

主創中還發現了翟曉華的身影。

他同樣本科畢業于南京大學，在北京大學攻讀博士學位後，赴蘇黎世加入谷歌。

翟曉華和盧卡斯 · 拜爾（Lucas Beyer）、亞歷山大 · 科列斯尼科夫（Alexander Kolesnikov）一起在谷歌提出多項重要工作。

2021 年，他們三人作為共同一作的計算機視覺領網域神作 ViT 發布即刷新 ImageNet 最高分。

這項研究證實了 CNN 在 CV 領網域不是必需的，Transformer 從 NLP 跨界，一樣可以取得先進效果。開創了 Transformer 在 CV 領網域應用的先河。

目前這篇論文被引用量已超過 5.3 萬。

他在谷歌 DeepMind 時領導蘇黎世多模态研究小組，重點研究多模态數據（WebLI）、開放權重模型 ( SigLIP、PaliGemma ) 以及文化包容性。

2024 年 12 月，爆料稱 OpenAI 挖走 ViT 三大核心作者。随後，該消息被本人證實。

論文地址：

https://arxiv.org/abs/2502.07617