大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

DeepSeek等團隊新作JanusFlow: 1.3B大模型統一視覺理解和生成

2024-11-22 简体 HK SG TW

今天小編分享的科學經驗:DeepSeek等團隊新作JanusFlow: 1.3B大模型統一視覺理解和生成,歡迎閱讀。

在多模态 AI 領網域,基于預訓練視覺編碼器與 MLLM 的方法(如 LLaVA 系列)在視覺理解任務上展現出卓越性能。

而基于 Rectified Flow 的模型(如 Stable Diffusion 3 及其衍生版本)則在視覺生成方面取得重大突破。

能否将這兩種簡單的技術範式統一到單一模型中?

來自 DeepSeek、北大、香港大學以及清華大學的團隊研究表明:

在 LLM 框架内直接融合這兩種結構,就可以實現視覺理解與生成能力的有效統一。

模型架構

簡單來說,JanusFlow 将基于視覺編碼器和 LLM 的理解框架與基于 Rectified Flow 的生成框架直接融合,實現了兩者在單一 LLM 中的端到端訓練。

其核心設計包括: ( 1 ) 采用解耦的視覺編碼器分别優化理解與生成能力; ( 2 ) 利用理解端編碼器對生成端特征進行表征對齊,顯著提升 RF 的訓練效率。基于 1.3B 規模的 LLM,JanusFlow 在視覺理解和生成任務上均超過此前同規模的統一多模态模型。

在 LLM 基礎上,JanusFlow 加入了如下組件:

1、視覺理解編碼器(圖中的 Und. Encoder):我們使用 SigLIP 将輸入的圖片轉換成 Visual embeddings;專注于視覺理解任務的特征提取。

2、視覺生成編解碼器(圖中的 Gen. Encoder/Decoder):輕量級模塊,總參數量約 70M;基于 SDXL-VAE 的 latent space 進行生成;編碼器:利用雙層 ConvNeXt Block 将輸入 latent z_t 轉換為 visual embeddings;解碼器:通過雙層 ConvNeXt Block 将處理後的 embeddings 解碼為 latent space 中的速度 v 。

3、注意力機制:在我們的初步實驗中,我們發現生成任務中 causal attention 和 bidirectional attention 效果相當;基于效率和簡潔性考慮,統一采用 causal attention 處理兩類任務。

JanusFlow 有兩種生成模式:

1、視覺理解(文 + 圖 -> 文 ) :此時,JanusFlow 的推理模式是正常的自回歸模式,通過預測下一個 token 來生成回復

2、圖片生成(文 -> 圖):此時,JanusFlow 的推理模式是采用歐拉法求解 Rectified Flow 學出的 ODE,從 t=0 的純噪聲逐步推進到 t=1 的幹淨影像。我們在生成過程中使用 Classifier-Free Guidance 并把迭代步數設定為 30 步。

方法與設計

1、三階段訓練策略

我們的訓練分為 Adaptation,Pre-Training 和 Supervised Fine-Tuning 三階段。我們的訓練數據包括視覺理解(圖生文)和視覺生成(文生圖)兩類。特别地,由于發現 RF 收斂速度顯著慢于 AR,我們在預訓練階段采用了非對稱的數據配比策略(理解:生成 =2:8),實驗證明該配比能夠有效平衡模型的兩方面能力。詳細訓練流程和數據配置請見論文。

2、解耦理解與生成的視覺編碼器

在之前結合 LLM 與 Diffusion Model 訓練統一多模态模型的嘗試中,理解與生成任務通常采用同一個視覺編碼器(如 Show-O [ 1 ] 中理解和生成均采用 MAGVIT-v2 将圖片轉換成離散 token,Transfusion [ 2 ] 中理解和生成均采用 latent space 裡的 U-Net Encoder),往往導致理解和生成任務在視覺編碼層面的衝突。在我們的上一個工作 Janus [ 3 ] 中證實了對多模态理解和生成任務的編碼器進行解耦能有效緩解衝突,提升模型的整體性能。在 JanusFlow 中,我們沿用了這一設計。我們進行了一系列的消融實驗探究了不同視覺編碼器策略的影響,證實為理解和生成任務分别配置專用編碼器能夠顯著提升整體性能。

3、表征對齊(Representation Alignment)

正如之前提到的,由于 RF 的訓練收斂速度顯著慢于 AR,JanusFlow 的訓練開銷較大。得益于我們解耦了理解與生成的編碼器,我們可以使用 REPA [ 4 ] 的方法來加速 RF 訓練的收斂速度。具體而言,我們在生成數據的訓練中要求視覺編碼器提取的訓練圖片 x 的特征與其加噪樣本 z_t 在 LLM 中的中間層特征對齊。實驗表明,該方法在僅增加少量計算開銷的情況下,顯著提升了生成任務的收斂效率。

(綠線:使用 REPA;藍線:不使用 REPA。使用 REPA 可以顯著加速 FID 的降低 ( 與影像質量相關 ) 和 CLIP score 的升高 ( 與文生圖模型的語義準确度相關 ) 。)

4、消融實驗

我們設計了六組對照實驗以驗證模型各組件的有效性:

A、不使用 REPA,理解模塊是 SigLIP,生成模塊是 SDXL-VAE+ConvNeXt Block,聯合訓練理解與生成任務;

B、使用 REPA,理解和生成模塊使用共享參數的 SDXL-VAE+ConvNeXt Block,聯合訓練理解與生成任務;這個設定類似 Transfusion;

C、使用 REPA,理解和生成模塊使用獨立參數的 SDXL-VAE+ConvNeXt Block,其中,理解部分的 SDXL-VAE 參數參與訓練,聯合訓練理解與生成任務;

D、理解模塊是 SigLIP,只訓練理解數據,保持與聯合訓練中理解數據等量;這是同一框架和數據量下,理解模型的基準;

E、使用 REPA,理解模塊是 SigLIP,生成模塊是 SDXL-VAE+ConvNeXt Block,只訓練生成數據,保持與聯合訓練中生成數據等量;這是同一框架和數據量下,生成模型的基準;

F、使用 REPA,理解模塊是 SigLIP,生成模塊是 SDXL-VAE+ConvNeXt Block,聯合訓練理解與生成任務。

實驗結果如下圖。

分析:

1、比較 A 和 F:REPA 的引入顯著提升了生成相關的指标

2、比較 B,C 和 F:解耦編碼器并使用 SigLIP 作為理解模塊能得到理解和生成能力最好的統一模型

3、比較 D,E 和 F:我們的最終策略 F 在訓練數據量和訓練設定均相同的情況下,理解能力與純理解基準相當,生成能力與純生成基準基本持平;驗證了 F 在保持各自性能的同時實現了兩個任務的有機統一

基于以上實驗結果,我們采用方案 F 作為 JanusFlow 的最終架構配置。

實驗結果

JanusFlow 在 DPGBench,GenEval 和多模态理解的測評标準上都取得了強大的效果。詳見表格。

△視覺理解分數:JanusFlow 超過了一些同尺寸的純理解模型

△視覺生成分數:JanusFlow 有較強的語義跟随能力

△視覺理解主觀效果

△視覺生成主觀效果

最後總結,JanusFlow 通過融合自回歸 LLM 與 Rectified Flow,成功構建了一個統一的視覺理解與生成框架。該模型具有簡潔的架構設計,在視覺理解和生成兩大任務上均展現出強勁的競争力。

相關文獻:

[ 1 ] Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

[ 2 ] Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

[ 3 ] Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

[ 4 ] Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think

—  完  —

投稿請發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

點這裡關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們