今天小編分享的科技經驗:ICLR 2024|把影像視為外語,快手、北大多模态大模型媲美DALLE-3,歡迎閱讀。
動态視覺分詞統一圖文表示,快手與北大合作提出基座模型 LaVIT 刷榜多模态理解與生成任務。
當前的大型語言模型如 GPT、LLaMA 等在自然語言處理領網域取得了顯著進展,能夠理解和生成復雜的文本内容。但你是否想過,如果能夠将大語言模型這強大的理解和生成能力遷移到多模态數據上,就可以輕松理解海量的影像與視頻,并輔助創作圖文并茂的内容。近期,來自快手和北大合作的最新多模态大模型 LaVIT, 正在讓這個想法逐步變為現實。
論文标題:Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization
論文地址:https://arxiv.org/abs/2309.04669
代碼模型地址:https://github.com/jy0205/LaVIT
模型總覽
LaVIT 作為一個新型的通用多模态基礎模型,可以像語言模型那樣,既能夠理解也能生成視覺内容。LaVIT 繼承了大語言模型成功的訓練範式,即以自回歸的方式預測下一個影像或文本 token。在訓練完成後,其可以充當一個多模态通用接口,無需進一步的微調,就可以執行多模态理解和生成任務。例如,LaVIT 具有以下的能力:
實現高質量文本到影像的生成:LaVIT 能夠根據給定的文本提示生成高質量、多種縱橫比和高美感的影像。其影像生成能力與最先進的影像生成模型(如 Parti、SDXL 和 DALLE-3)相媲美。
根據多模态提示進行影像生成:由于在 LaVIT 中,影像和文本都被統一表示為離散化的 token,因此其可以接受多種模态組合(例如文本、影像 + 文本、影像 + 影像)作為提示,生成相應的影像,而無需進行任何微調。
理解影像内容并回答問題:在給定輸入影像的情況下,LaVIT 能夠閱讀影像内容并理解其語義。例如,模型可以為輸入的影像提供 caption 并回答相應的問題。
方法概覽
LaVIT 的模型結構如下圖所示,其整個優化過程包括兩個階段:
圖:LaVIT 模型的整體架構
階段 1: 動态視覺分詞器
為了能夠像自然語言一樣理解和生成視覺内容,LaVIT 引入了一個設計良好的視覺分詞器,用于将視覺内容(連續信号)轉換為像文本一樣的 token 序列,就像 LLM 能夠理解的外語一樣。作者認為,為了實現統一視覺和語言的建模,該視覺分詞器 ( Tokenizer ) 應該具有以下兩個特性:
離散化:視覺 token 應該被表示為像文本一樣的離散化形式。這樣對于兩種模态采用統一的表示形式,有利于 LaVIT 在一個統一的自回歸生成式訓練框架下,使用相同的分類損失進行多模态建模優化。
動态化:與文本 token 不同的是,影像 patch 之間有着顯著的相互依賴性,這使得從其他影像 patch 中推斷另一個 patch 相對簡單。因此,這種依賴性會降低原本 LLM 的 next-token prediction 優化目标的有效性。LaVIT 提出通過使用 token merging 來降低視覺 patch 之間的冗餘性,其根據不同影像語義復雜度的不同,編碼出動态的視覺 token 數量。這樣對于復雜程度不同的影像,采用動态的 token 編碼也進一步提高了預訓練的效率,避免了冗餘的 token 計算。
下圖是 LaVIT 所提出的視覺分詞器結構:
圖: ( a ) 動态視覺 token 生成器 ( b ) token 合并器
該動态視覺分詞器包括 token 選擇器和 token 合并器。如圖所示, token 選擇器用來選擇最具信息的影像區塊,而 token 合并器則将那些 uninformative 的視覺塊的信息壓縮到保留下的 token 上,實現對冗餘 token 的 merging。整個動态視覺分詞器則通過最大限度地重構輸入影像的語義進行訓練。
Token 選擇器
Token 選擇器接收 N 個影像區塊級的特征作為輸入,其目标是評估每個影像區塊的重要性并選擇信息量最高的區塊,以充分代表整個影像的語義。為實現這一目标,采用輕量級模塊,由多個 MLP 層組成,用于預測分布 π。通過從分布 π 中采樣,生成一個二進制決策 mask,用于指示是否保留相應的影像區塊。
Token 合并器
Token 合并器據生成的決策掩碼,将 N 個影像區塊劃分為保留 X_r 和舍棄 X_d 兩組。與直接丢棄 X_d 不同,token 合并器可以最大限度地保留輸入影像的詳細語義。token 合并器由 L 個堆疊的塊組成,每個塊包括因果自注意力層、交叉注意力層和前饋層。因果自注意力層中, X_r 中的每個 token 只關注其前面的 token,以确保與 LLM 中的文本 token 形式一致。與雙向自注意相比,這種策略表現更好。交叉注意力層将保留的 token X_r 作為 query,并根據它們在語義上的相似性合并 X_d 中的 token。
階段 2: 統一的生成式預訓練
經過視覺分詞器處理後的視覺 token 與文本 token 相連接形成多模态序列作為訓練時的輸入。為了區分兩種模态,作者在影像 token 序列的開頭和結尾插入了特殊 token : [ IMG ] 和 [ /IMG ] ,用于表示視覺内容的開始和結束。為了能夠生成文本和影像,LaVIT 采用兩種圖文連接形式: [ image, text ] 和 [ text; image ] 。
對于這些多模态輸入序列,LaVIT 采用統一的、自回歸方式來直接最大化每個多模态序列的似然性進行預訓練。這樣在表示空間和訓練方式上的完全統一,有助于 LLM 更好地學習多模态互動和對齊。在預訓練完成後,LaVIT 具有感知影像的能力,可以像處理文本一樣理解和生成影像。
實驗
零樣本多模态理解
LaVIT 在影像字幕生成(NoCaps、Flickr30k)和視覺問答(VQAv2、OKVQA、GQA、VizWiz)等零樣本多模态理解任務上取得了領先的性能。
表 1 零樣本的多模态理解任務評估
零樣本多模态生成
在這個實驗中,由于所提出的視覺 tokenizer 能夠将影像表示為離散化 token,LaVIT 具有通過自回歸生成類似文本的視覺 token 來合成影像的能力。作者對模型進行了零樣本文本條件下的影像合成性能的定量評估,比較結果如表 2 所示。
表 2 不同模型的零樣本文本到影像生成性能
從表中可以看出,LaVIT 的表現優于所有其他多模态語言模型。與 Emu 相比,LaVIT 在更小的 LLM 模型上取得了進一步改進,展現了出色的視覺 - 語言對齊能力。此外,LaVIT 在使用更少的訓練數據的情況下,實現了與最先進的文本到影像專家 Parti 可比的性能。
多模态提示影像生成
LaVIT 能夠在無需進行任何微調的情況下,無縫地接受多種模态組合作為提示,生成相應的影像,而無需進行任何微調。LaVIT 生成的影像能夠準确反映給定多模态提示的風格和語義。而且它可以通過輸入的多模态提示修改原始輸入影像。在沒有額外微調的下遊數據的情況下,傳統的影像生成模型如 Stable Diffusion 無法達到這種能力。
多模态影像生成結果的示例
定性分析
如下圖所示,LaVIT 的動态分詞器可以根據影像内容動态選擇最具信息量的影像塊,學習到的代碼本可以產生具有高層語義的視覺編碼。
動态視覺分詞器(左)和學習到的 codebook(右)的可視化
總結
LaVIT 的出現為多模态任務的處理又提供了一種創新範式,通過使用動态視覺分詞器将視覺和語言表示為統一的離散 token 表示,繼承了 LLM 成功的自回歸生成學習範式。通過在統一生成目标下進行優化,LaVIT 可以将影像視為一種外語,像文本一樣理解和生成它們。這一方法的成功為未來多模态研究的發展方向提供了新的啟示,利用 LLM 強大的推理能力,實現更智能、更全面的多模态理解和生成打開新的可能性。