DeepSeek等團隊新作JanusFlow: 1.3B大模型統一視覺理解和生成

今天小編分享的科學經驗：DeepSeek等團隊新作JanusFlow: 1.3B大模型統一視覺理解和生成，歡迎閲讀。

在多模态 AI 領網域，基于預訓練視覺編碼器與 MLLM 的方法（如 LLaVA 系列）在視覺理解任務上展現出卓越性能。

而基于 Rectified Flow 的模型（如 Stable Diffusion 3 及其衍生版本）則在視覺生成方面取得重大突破。

能否将這兩種簡單的技術範式統一到單一模型中？

來自 DeepSeek、北大、香港大學以及清華大學的團隊研究表明：

在 LLM 框架内直接融合這兩種結構，就可以實現視覺理解與生成能力的有效統一。

模型架構

簡單來説，JanusFlow 将基于視覺編碼器和 LLM 的理解框架與基于 Rectified Flow 的生成框架直接融合，實現了兩者在單一 LLM 中的端到端訓練。

其核心設計包括： ( 1 ) 采用解耦的視覺編碼器分别優化理解與生成能力； ( 2 ) 利用理解端編碼器對生成端特征進行表征對齊，顯著提升 RF 的訓練效率。基于 1.3B 規模的 LLM，JanusFlow 在視覺理解和生成任務上均超過此前同規模的統一多模态模型。

在 LLM 基礎上，JanusFlow 加入了如下組件：

1、視覺理解編碼器（圖中的 Und. Encoder）：我們使用 SigLIP 将輸入的圖片轉換成 Visual embeddings；專注于視覺理解任務的特征提取。

2、視覺生成編解碼器（圖中的 Gen. Encoder/Decoder）：輕量級模塊，總參數量約 70M；基于 SDXL-VAE 的 latent space 進行生成；編碼器：利用雙層 ConvNeXt Block 将輸入 latent z_t 轉換為 visual embeddings；解碼器：通過雙層 ConvNeXt Block 将處理後的 embeddings 解碼為 latent space 中的速度 v 。

3、注意力機制：在我們的初步實驗中，我們發現生成任務中 causal attention 和 bidirectional attention 效果相當；基于效率和簡潔性考慮，統一采用 causal attention 處理兩類任務。

JanusFlow 有兩種生成模式：

1、視覺理解（文 + 圖 -> 文 ) ：此時，JanusFlow 的推理模式是正常的自回歸模式，通過預測下一個 token 來生成回復

2、圖片生成（文 -> 圖）：此時，JanusFlow 的推理模式是采用歐拉法求解 Rectified Flow 學出的 ODE，從 t=0 的純噪聲逐步推進到 t=1 的幹淨影像。我們在生成過程中使用 Classifier-Free Guidance 并把迭代步數設定為 30 步。

方法與設計

1、三階段訓練策略

我們的訓練分為 Adaptation，Pre-Training 和 Supervised Fine-Tuning 三階段。我們的訓練數據包括視覺理解（圖生文）和視覺生成（文生圖）兩類。特别地，由于發現 RF 收斂速度顯著慢于 AR，我們在預訓練階段采用了非對稱的數據配比策略（理解：生成 =2:8），實驗證明該配比能夠有效平衡模型的兩方面能力。詳細訓練流程和數據配置請見論文。

2、解耦理解與生成的視覺編碼器

在之前結合 LLM 與 Diffusion Model 訓練統一多模态模型的嘗試中，理解與生成任務通常采用同一個視覺編碼器（如 Show-O [ 1 ] 中理解和生成均采用 MAGVIT-v2 将圖片轉換成離散 token，Transfusion [ 2 ] 中理解和生成均采用 latent space 裏的 U-Net Encoder），往往導致理解和生成任務在視覺編碼層面的衝突。在我們的上一個工作 Janus [ 3 ] 中證實了對多模态理解和生成任務的編碼器進行解耦能有效緩解衝突，提升模型的整體性能。在 JanusFlow 中，我們沿用了這一設計。我們進行了一系列的消融實驗探究了不同視覺編碼器策略的影響，證實為理解和生成任務分别配置專用編碼器能夠顯著提升整體性能。

3、表征對齊（Representation Alignment）

正如之前提到的，由于 RF 的訓練收斂速度顯著慢于 AR，JanusFlow 的訓練開銷較大。得益于我們解耦了理解與生成的編碼器，我們可以使用 REPA [ 4 ] 的方法來加速 RF 訓練的收斂速度。具體而言，我們在生成數據的訓練中要求視覺編碼器提取的訓練圖片 x 的特征與其加噪樣本 z_t 在 LLM 中的中間層特征對齊。實驗表明，該方法在僅增加少量計算開銷的情況下，顯著提升了生成任務的收斂效率。