字節發布視覺基礎模型ViTamin，多項任務實現SOTA，入選CVPR2024

今天小編分享的科學經驗：字節發布視覺基礎模型ViTamin，多項任務實現SOTA，入選CVPR2024，歡迎閲讀。

視覺語言模型屢屢出現新突破，但 ViT 仍是影像編碼器的首選網絡結構。

字節提出新基礎模型—— ViTamin，專為視覺語言時代設計。

在使用相同的數據集和訓練方案時，ViTamin 在 ImageNet 零樣本準确率上比 ViT 提高了 2.0%。

此外在分類、檢索、開放詞匯檢測和分割、多模态大語言模型等 60 個不同基準上都表現出了良好的結果。

當進一步擴展參數規模時，ViTamin-XL 僅有 436M 參數，卻達到了 82.9% 的 ImageNet 零樣本準确率，超過了擁有十倍參數（4.4B）的 EVA-E。

最終這一成果，入選計算機視覺頂會 CVPR2024。

視覺語言時代新基準

在視覺語言時代下，如何設計一個更好可擴展的視覺模型？

在 ImageNet 時代，新的視覺模型在 ImageNet 數據集得以驗證，也造就了不斷有新的視覺模型湧現。但在視覺語言時代，新的視覺模型鮮為人見。

此外，基于現有常見視覺模型，在面對比 ImageNet 數據規模還大的情況下表現又是如何？研究團隊們測試了幾種常見模型，包括純 Transformer 的 ViT，純卷積網絡的 ConvNeXt，以及混合卷積和 Transformer 的 CoAtNet。

最終在一個公開的數據集上進行了系統性的訓練和比較，得出了一些關鍵發現：

第一，模型的擴展性：由于可擴展的自注意力機制，ViT 能最好地适應不同規模的任務。

第二，數據的擴展性：随着訓練數據的增加，所有模型的性能都有所提升。

第三，特征的分辨率：在訓練過程中，模型需要理解更廣泛的信息，而不僅僅是簡單的類别标籤。因此，提取的特征的分辨率對模型的預測能力有很大影響。

第四，混合架構：在一般情況下，CoAtNet 表現優于其他模型，但将其擴展到處理數十億數據可能會有一些挑戰。

基于這些發現，研究人員設計了ViTamin 模型。

它采用了三個階段的混合架構。前兩個階段使用了輕量級的 MBConv Blocks，第三個階段包含了可擴展的 Transformer Blocks。

具體來説，一張圖片首先經過卷積 stem 處理，得到 2 倍降采樣的特征圖。

然後，這個特征圖經過第一階段，由兩個 MBConv-LN Blocks 組成，接着經過第二階段，由四個 MBConv-LN Blocks 組成，然後降采樣得到 16 倍降采樣的二維特征。

接下來，這些特征被展平成一維，并輸入到第三階段，該階段由 N_B 個 TFB-GeGLU Block 組成。最後，通過對比影像特征和語言特征，來學習對比損失函數。

作者們致力于簡單有效的scaling law，只考慮模型的寬度 C 和模型第三階段的深度 N_B，因此在 scaling 到更大的模型中，通過模型的參數規模可以直接反推需要多大的寬度和深度，進而實現模型的 scaling。

多項 SOTA

在零樣本性能上面，研究結果顯示，ViTamin-L 的零樣本 ImageNet 準确率比 ViT-L/14 高出了 2.0%。

當将特征分辨率增加到 576 個 patch 時，ViTamin-L 的準确率進一步提高到了 81.8%，比之前的 ViT-L/14 CLIPA-v2 高出了 1.5%。在 38 個數據集的平均性能上，ViTamin-L 比 ViT-H/14 模型高出了 0.4%，而且參數數量只有 ViT-H/14 的一半。

此外，當進一步擴大模型規模時，參數量為 436M 的 ViTamin-XL 達到了 82.9% 的 ImageNet 零樣本準确率，超過了 4.4B 參數量的 EVA-E 取得的 82.0%。

作者們進一步驗證了ViTamin 模型對下遊任務而言是個強大的視覺編碼器。

作者們引入了一系列下遊任務，包括開放詞匯檢測和分割，以及多模态大模型（LMMs）。

ViTamin 在開放詞匯檢測任務 OV-LVIS 上，相比比 ViT-L 模型能提高了 3.1%。ViTamin 在 8 個開放詞匯分割任務中，相比 ViT-L 平均提升了 2.6%。

ViTamin 能直接遷移到多模态大模型諸如 LLaVA 上，并在 12 個多模态問答等基準上表現出色。值得注意的是，ViTamin 在 7 個開放詞匯分割基準上創造了新 SOTA。

在這項工作中，作者們建立了主流視覺模型在視覺語言情境下的評估基準，并對它們進行了重新基準測試。作者們從數據可擴展性、模型可擴展性、特征分辨率和混合架構四個方面考察了主流的視覺模型。