字節發布視覺基礎模型ViTamin，多項任務實現SOTA，入選CVPR2024

今天小編分享的科學經驗：字節發布視覺基礎模型ViTamin，多項任務實現SOTA，入選CVPR2024，歡迎閱讀。

視覺語言模型屢屢出現新突破，但 ViT 仍是影像編碼器的首選網絡結構。

字節提出新基礎模型—— ViTamin，專為視覺語言時代設計。

在使用相同的數據集和訓練方案時，ViTamin 在 ImageNet 零樣本準确率上比 ViT 提高了 2.0%。

此外在分類、檢索、開放詞匯檢測和分割、多模态大語言模型等 60 個不同基準上都表現出了良好的結果。

當進一步擴展參數規模時，ViTamin-XL 僅有 436M 參數，卻達到了 82.9% 的 ImageNet 零樣本準确率，超過了擁有十倍參數（4.4B）的 EVA-E。

最終這一成果，入選計算機視覺頂會 CVPR2024。

視覺語言時代新基準

在視覺語言時代下，如何設計一個更好可擴展的視覺模型？

在 ImageNet 時代，新的視覺模型在 ImageNet 數據集得以驗證，也造就了不斷有新的視覺模型湧現。但在視覺語言時代，新的視覺模型鮮為人見。

此外，基于現有常見視覺模型，在面對比 ImageNet 數據規模還大的情況下表現又是如何？研究團隊們測試了幾種常見模型，包括純 Transformer 的 ViT，純卷積網絡的 ConvNeXt，以及混合卷積和 Transformer 的 CoAtNet。

最終在一個公開的數據集上進行了系統性的訓練和比較，得出了一些關鍵發現：

第一，模型的擴展性：由于可擴展的自注意力機制，ViT 能最好地适應不同規模的任務。

第二，數據的擴展性：随着訓練數據的增加，所有模型的性能都有所提升。

第三，特征的分辨率：在訓練過程中，模型需要理解更廣泛的信息，而不僅僅是簡單的類别标籤。因此，提取的特征的分辨率對模型的預測能力有很大影響。

第四，混合架構：在一般情況下，CoAtNet 表現優于其他模型，但将其擴展到處理數十億數據可能會有一些挑戰。

基于這些發現，研究人員設計了ViTamin 模型。

它采用了三個階段的混合架構。前兩個階段使用了輕量級的 MBConv Blocks，第三個階段包含了可擴展的 Transformer Blocks。

具體來說，一張圖片首先經過卷積 stem 處理，得到 2 倍降采樣的特征圖。

然後，這個特征圖經過第一階段，由兩個 MBConv-LN Blocks 組成，接着經過第二階段，由四個 MBConv-LN Blocks 組成，然後降采樣得到 16 倍降采樣的二維特征。

接下來，這些特征被展平成一維，并輸入到第三階段，該階段由 N_B 個 TFB-GeGLU Block 組成。最後，通過對比影像特征和語言特征，來學習對比損失函數。

作者們致力于簡單有效的scaling law，只考慮模型的寬度 C 和模型第三階段的深度 N_B，因此在 scaling 到更大的模型中，通過模型的參數規模可以直接反推需要多大的寬度和深度，進而實現模型的 scaling。

多項 SOTA

在零樣本性能上面，研究結果顯示，ViTamin-L 的零樣本 ImageNet 準确率比 ViT-L/14 高出了 2.0%。

當将特征分辨率增加到 576 個 patch 時，ViTamin-L 的準确率進一步提高到了 81.8%，比之前的 ViT-L/14 CLIPA-v2 高出了 1.5%。在 38 個數據集的平均性能上，ViTamin-L 比 ViT-H/14 模型高出了 0.4%，而且參數數量只有 ViT-H/14 的一半。

此外，當進一步擴大模型規模時，參數量為 436M 的 ViTamin-XL 達到了 82.9% 的 ImageNet 零樣本準确率，超過了 4.4B 參數量的 EVA-E 取得的 82.0%。

作者們進一步驗證了ViTamin 模型對下遊任務而言是個強大的視覺編碼器。

作者們引入了一系列下遊任務，包括開放詞匯檢測和分割，以及多模态大模型（LMMs）。

ViTamin 在開放詞匯檢測任務 OV-LVIS 上，相比比 ViT-L 模型能提高了 3.1%。ViTamin 在 8 個開放詞匯分割任務中，相比 ViT-L 平均提升了 2.6%。

ViTamin 能直接遷移到多模态大模型諸如 LLaVA 上，并在 12 個多模态問答等基準上表現出色。值得注意的是，ViTamin 在 7 個開放詞匯分割基準上創造了新 SOTA。

在這項工作中，作者們建立了主流視覺模型在視覺語言情境下的評估基準，并對它們進行了重新基準測試。作者們從數據可擴展性、模型可擴展性、特征分辨率和混合架構四個方面考察了主流的視覺模型。

這四個方面的關鍵發現為 ViTamin 的設計提供指導，ViTamin 模型不僅在零樣本 ImageNet 準确率和平均 38 個數據集準确率方面全面超越 ViT，而且在包括開放詞匯檢測和分割以及大型多模态模型在内的 22 個下遊任務上達到了最新的技術水平。

來自智能創作團隊

智能創作團隊是字節跳動 AI & 多媒體技術團隊，覆蓋了計算機視覺、音視頻編輯、特效處理等技術領網域。

他們借助公司豐富的業務場景、基礎設施資源和技術協作氛圍，實現了前沿算法 - 工程系統 - 產品全鏈路的閉環，旨在以多種形式為公司内部各業務提供業界前沿的内容理解、内容創作、互動體驗與消費的能力和行業解決方案。

目前，智能創作團隊已通過字節跳動旗下的雲服務平台火山引擎向企業開放技術能力和服務。更多大模型算法相關崗位開放中。

論文鏈接：

https://arxiv.org/pdf/2404.02132.pdf

項目主頁 :

https://beckschen.github.io/vitamin

— 完 —

點這裡關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~