今天小編分享的科學經驗:打破紀錄!谷歌全網扒1000億影像文本對,ViT大佬坐鎮:數據Scaling潛力依舊,歡迎閱讀。
史上最大規模視覺語言數據集:1000 億影像 - 文本對!
什麼概念?
較此前紀錄擴大 10 倍。
這就是由谷歌推出的最新數據集WebLI-100B。
它進一步證明,數據 Scaling Law 還遠沒有到上限。
在英文世界之外的多元文化、多語言維度,1000 億規模數據集能更好覆蓋長尾場景,由此帶來明顯性能提升。
這意味着,想要構建更加多元的多模态大模型,千億級數據規模,将成為一個重要參考。
同時研究還進一步證明,CLIP 等模型的過濾篩選步驟,會對這種多元性提升帶來負面影響。
該研究由谷歌 DeepMind 帶來,一作為 Xiao Wang、 Ibrahim Alabdulmohsin。
作者之列中還發現了 ViT 核心作者翟曉華。2024 年 12 月,他在推特上官宣,将入職 OpenAI 蘇黎世實驗室。
數據規模越大對細節理解越好
論文主要工作有三方面。
驗證 VLMs 在 1000 億規模數據集上的效果
證明 1000 億規模數據集能增強 VLMs 文化多樣性、多語言能力以及減少不同子組之間的性能差異。
發現 CLIP 這類模型過濾篩選數據的過程會對無意中降低模型的文化多元性,在 1000 億規模數據集上亦是如此。
具體來看,研究人員從網絡上搜集了 1000 億影像 - 文本對,初步去除有害内容以及敏感信息。
然後使用 CLIP 模型對數據集進行質量評估,篩選出與影像内容高度對齊的影像 - 文本對。
他們訓練了一個分類器模型,對影像 - 文本進行對齊和錯位分類,并調整阈值以重新篩選數據集。為了評估多語言能力,還使用網頁的語言标籤來确定數據集中的語言分布。
為了評估不同數據規模對模型性能的影響,研究人員從 1000 億數據集中随機抽取了 1% 和 10% 的數據,分别創建了 10 億和 100 億規模的數據集。
同時為了提高低資源語言的代表性,研究人員對低資源語言進行了上采樣,将它們的占比從 0.5% 提高到 1%。
實驗方面,研究人員使用 SigLIP 模型在不同規模的數據集上進行對比視覺語言預訓練。
他們訓練了不同大小的模型(ViTB/16、ViT-L/16、ViT-H/14),并使用了大規模的批量大小和學習率調度。
從結果來看,1B 數據集訓練的模型在注意力圖上無法很好捕捉細節。10B 數據集有所改善,100B 數據集能更精準。
同時使用多語言 mt5 分詞器對文本進行分詞,并訓練了多種語言的模型。
在模型評估上,研究人員主要進行以下幾個維度分析:
傳統基準測試:多個傳統基準測試(如 ImageNet、COCO Captions 等)上評估。
文化多樣性:使用 Dollar Street、GeoDE 和 Google Landmarks Dataset v2 等數據集評估了模型在文化多樣性任務上的性能。
多語言能力:使用 Crossmodal-3600 數據集評估了模型在多語言任務上的性能。
公平性:評估了模型在不同子組(如性别、收入水平、地理區網域)上的性能差異,以評估模型的公平性。
結果顯示,從 100 億到 1000 億規模數據,在以西方文化為主的傳統基準測試上帶來的提升比較有限,但在多語言能力和公平性相關任務上顯著提高。
數據過濾可以提高模型在傳統任務上的性能,但可能會減少某些文化背景的代表性,從而限制數據集的多樣性。
此外,通過調整低資源語言的混合比例,可以顯著提高模型在低資源語言基準測試上的性能。
主創翟曉華已被 OpenAI 挖走
該研究的一作為 Xiao Wang 和 Ibrahim Alabdulmohsin。
Xiao Wang本科畢業于南京大學,碩士畢業于北京大學。
領英資料顯示,他畢業後先後任職于 IBM 中國開發實驗室、網易有道。2015 年加入谷歌 DeepMind 至今,職位是高級軟體工程師,主要從事視覺語言研究。
主創中還發現了翟曉華的身影。
他同樣本科畢業于南京大學,在北京大學攻讀博士學位後,赴蘇黎世加入谷歌。
翟曉華和盧卡斯 · 拜爾(Lucas Beyer)、亞歷山大 · 科列斯尼科夫(Alexander Kolesnikov)一起在谷歌提出多項重要工作。
2021 年,他們三人作為共同一作的計算機視覺領網域神作 ViT 發布即刷新 ImageNet 最高分。
這項研究證實了 CNN 在 CV 領網域不是必需的,Transformer 從 NLP 跨界,一樣可以取得先進效果。開創了 Transformer 在 CV 領網域應用的先河。
目前這篇論文被引用量已超過 5.3 萬。
他在谷歌 DeepMind 時領導蘇黎世多模态研究小組,重點研究多模态數據(WebLI)、開放權重模型 ( SigLIP、PaliGemma ) 以及文化包容性。
2024 年 12 月,爆料稱 OpenAI 挖走 ViT 三大核心作者。随後,該消息被本人證實。
論文地址:
https://arxiv.org/abs/2502.07617