今天小編分享的科技經驗:高效又高質量!Token-Shuffle 革新影像生成方式,歡迎閲讀。
IT 之家 4 月 26 日消息,科技媒體 marktechpost 昨日(4 月 25 日)發布博文,報道稱 Meta AI 創新推出 Token-Shuffle,目标解決自回歸(Autoregressive,AR)模型在生成高分辨率影像方面的擴展難題。
IT 之家注:自回歸模型是一種用于時間序列分析的統計方法,主要用于預測數據序列中的未來值。該模型的核心思想是當前的值與過去的值之間存在線性關系,因此可以用變量自身的歷史數據來預測當前或未來的值。
在語言生成方面,自回歸模型大放異彩,近年來也被廣泛探索用于影像合成,然而在面對高分辨率影像時,AR 模型遭遇瓶頸。
不同于文本生成僅需少量 token,影像合成中高分辨率圖片往往需要數千個 token,計算成本随之暴增。這讓許多基于 AR 的多模态模型只能處理低中分辨率影像,限制了其在精細影像生成中的應用。
盡管擴散模型(Diffusion Models)在高分辨率上表現強勁,但其復雜的采樣過程和較慢的推理速度也存在局限。
Token-Shuffle 的核心機制與優勢
Meta AI 推出的 Token-Shuffle 方法直擊 token 效率問題。它通過識别多模态大語言模型(MLLMs)中視覺詞匯的維度冗餘,提出了一種創新策略:在 Transformer 處理前,将空間上相鄰的視覺 token 沿通道維度合并,推理後再恢復原始空間結構。
這種 token 融合機制大幅降低了計算成本,在保持視覺質量的同時,讓自回歸模型能夠高效處理最高 2048×2048 分辨率的影像。Token-Shuffle 無需改動 Transformer 架構,也無需額外預訓練編碼器,操作簡單且兼容性強。
具體而言,Token-Shuffle 包含 token-shuffle 和 token-unshuffle 兩個步驟。輸入準備階段,空間相鄰 token 通過 MLP(多層感知機)壓縮為單個 token,減少 token 數量。
以視窗大小 s 為例,token 數量可減少 s² 分之一,顯著降低 Transformer 的計算量(FLOPs)。此外,該方法還引入了針對自回歸生成的 classifier-free guidance(CFG)調度器,動态調整引導強度,優化文本 - 影像對齊效果。
實驗成果與未來潛力
Token-Shuffle 在 GenAI-Bench 和 GenEval 兩大基準測試中展現了強大實力。在 GenAI-Bench 上,基于 2.7B 參數的 LLaMA 模型,Token-Shuffle 在 " 困難 " 提示下取得 VQAScore 0.77,超越其他 AR 模型如 LlamaGen(+0.18)和擴散模型 LDM(+0.15)。
在 GenEval 中,其綜合得分為 0.62,為 AR 模型樹立了新标杆。用户評估也顯示,盡管在邏輯一致性上略遜于擴散模型,但 Token-Shuffle 在文本對齊、影像質量上優于 LlamaGen 和 Lumina-mGPT。
IT 之家附上參考地址