何恺明新作：簡單框架達成無條件影像生成新SOTA！與MIT合作完成 - 大酷樂

今天小編分享的科學經驗：何恺明新作：簡單框架達成無條件影像生成新SOTA！與MIT合作完成，歡迎閲讀。

大佬何恺明還未正式入職 MIT，但和 MIT 的第一篇合作研究已經出來了：

他和 MIT 師生一起開發了一個自條件影像生成框架，名叫 RCG（代碼已開源）。

這個框架結構非常簡單但效果拔群，直接在 ImageNet-1K 數據集上實現了無條件影像生成的新 SOTA。

它生成的影像不需要任何人類注釋（也就是提示詞、類标籤什麼的），就能做到既保真又具有多樣性。

這樣的它不僅顯著提高了無條件影像生成的水平，還能跟當前最好的條件生成方法一較高下。

用何恺明團隊自己的話來説：

有條件和無條件生成任務之間長期存在的性能差距，終于在這一刻被彌補了。

那麼，它究竟是如何做到的呢？

類似自監督學習的自條件生成

首先，所謂無條件生成，就是模型在沒有輸入信号幫助的情況下直接捕獲數據分布生成内容。

這種方式比較難以訓練，所以一直和條件生成有很大性能差距——就像無監督學習比不過監督學習一樣。

但就像自監督學習的出現，扭轉了這一局面一樣。

在無條件影像生成領網域，也有一個類似于自監督學習概念的自條件生成方法。

相比傳統的無條件生成簡單地将噪聲分布映射到影像分布，這種方法主要将像素生成過程設定在從數據分布本身導出的表示分布上。

它有望超越條件影像生成，并推動諸如分子設計或藥物發現這種不需要人類給注釋的應用往前發展（這也是為什麼條件生成影像發展得這麼好，我們還要重視無條件生成）。

現在，基于這個自條件生成概念，何恺明團隊首先開發了一個表示擴散模型 RDM。

它主要用于生成低維自監督影像表示，方法是通過自監督影像編碼器從影像中截取：

它的核心架構如下：

首先是輸入層，它負責将表征投射到隐藏維度 C，接着是 N 個全連接塊，最後是一個輸出層，負責把隐藏層的潛在特征重新投射（轉換）到原始表征維度。

其中每一層都包含一個 LayerNorm 層、一個 SiLU 層以及一個線性層。

這樣的 RDM 具有兩個優點：

一是多樣性強，二是計算開銷小。

接着，利用 RDM，團隊就提出了今天的主角：表示條件影像生成架構 RCG。

它是一個簡單的自條件生成框架，由三個組件組成：

一個是 SSL 影像編碼器，用于将影像分布轉換為緊湊的表示分布。

一個是 RDM，用于對該分布進行建模和采樣。

最後是一個像素生成器 MAGE，用于根據表示來處理影像像。

MAGE 的工作方式主要是向 token 化的影像中添加随機掩碼，并要求網絡以從同一影像中提取的表示為條件來重建丢失的 token。

最終，測試表明，這個自條件生成框架雖結構簡單但效果非凡：

在 ImageNet 256 × 256 上，RCG 實現了3.56 的 FID 和 186.9 的 IS（Inception Score）得分。

相比之下，在它之前最厲害的無條件生成方法 FID 分數為 7.04，IS 得分為 123.5。

以及，相比條件生成，RCG 也絲毫不遜色，可以達到相當甚至超過該領網域基準模型的水平。

最後，在無分類器引導的情況下，RCG 的成績還能進一步提高到 3.31（FID）和 253.4（IS）。

團隊表示：

這些結果表明，自條件影像生成模型擁有巨大潛力，可能預示這一領網域新時代的到來。

團隊介紹

本文一共三位作者：

一作是 MIT 博士生黎天鴻，本科畢業于清華姚班，研究方向為跨模态集成傳感技術。

他的主頁很有意思，還專門放了一個菜譜合集——做研究和做飯是他最熱愛的兩件事。

另一位作者是 MIT 電氣工程與計算機科學系（EECS）教授、MIT 無線網絡和移動計算中心主任 Dina Katabi，她是今年斯隆獎的得主，并已當選美國國家科學院院士。

最後，通訊作者為何恺明，他将在明年正式回歸學界、離開 Meta 加入 MIT 電氣工程和計算機科學系，與 Dina Katabi 成為同事。

論文地址：

https://arxiv.org/abs/2312.03701

— 完 —

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~

>

熱門排行

王治郅：楊瀚森主要的問題是速度他的速度跟郟君昊 | 2025-05-05
貿易戰燒進電影院：特朗普拟重税打擊外國電影習又夏 | 2025-05-05
貸款追高炒黃金的人後悔了！有人一天虧掉6年寸飛蘭 | 2025-05-05
手機電池突破8000mAh？硅碳技術的回旋镖：「折衛青柏 | 2025-05-05
貸款追高炒黃金的人後悔了！有人一天虧掉6年繁綺文 | 2025-05-05
任天堂對Genki提起Switch 2商标侵權訴訟，後郜萌運 | 2025-05-05
哪吒汽車APP和官網恢復正常知情人士：之前斷袁曼雁 | 2025-05-05
極越汽車 CEO 夏一平名下青島/義烏兩家公司集玲琳 | 2025-05-05
全國經濟第一大省明确，推動組建農商聯合銀行佼昌翰 | 2025-05-05
桑保利：亞馬爾有配合意識&有點像梅西姆巴佩甄正浩 | 2025-05-05
高露現身上海虹橋機場黑色外套點綴亮色愛惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：處理器更新為天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懶癌”發病率上升，定期體檢别忽視幸聽楓 | 2023-05-02
宋慧喬獲百想視後韓素希發圖手動加愛心表賁芳蕤 | 2023-05-02
曹操墓，裏面都有啥？衛青柏 | 2023-05-02
十年了，他們終于要HE！惠惠君 | 2023-05-07
中央部署經濟工作，釋放5大信号郜萌運 | 2023-05-02
高德上線手機彎道會車預警功能習又夏 | 2023-05-02
陳自瑤抱病為愛女做蛋糕慶生，王浩信點贊沒露賁芳蕤 | 2023-05-02
等比例長大的童星，李蘭迪算一個郟君昊 | 2023-05-02
高端國產車：軍車血統，目前電動車越野的“天花謝飛揚 | 2023-05-02
這些被抓來做實驗的流浪狗，最終拯救了無數糖集玲琳 | 2023-05-02
《雲襄傳》終于抬上來啦，男O女A讓人好上頭！集玲琳 | 2023-05-02
信用風險釋放趨緩，結構性風險需重點關注 — 袁曼雁 | 2023-05-02
21家A股遊戲公司2022年收入651億今年“遊衛青柏 | 2023-05-04
與周立波夫婦鬧糾紛成老賴，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
普京籤署總統令，批準對俄刑法典相關法條的修集玲琳 | 2023-05-02
解除資格！停止一切合作佼昌翰 | 2023-05-02
中銀證券給予南京銀行增持評級袁曼雁 | 2023-05-03
前董事長被免，天山生物全面進入“中植系”時惠惠君 | 2023-05-02
3699起聯想小新mini主機上架 13代酷睿标壓習又夏 | 2023-05-05
瘋成這樣，怎麼還能被全網吹捧？郜萌運 | 2023-05-02
狂吼11次“讓一下”！交警咆哮開道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收購美國第一共和銀行謝飛揚 | 2023-05-02
台劇赢麻了，又來一部8.9 衛青柏 | 2023-05-02
下降45分，上漲35分！34所自劃線院校復試分數線袁曼雁 | 2023-05-07
事關農村土地承包和農民權益，《農村土地承包郟君昊 | 2023-05-02
"三高"已盯上青少年，做好這件事是關鍵習又夏 | 2023-05-05
五一檔沒一個能打的集玲琳 | 2023-05-05
恐怖韓劇下神壇，這次膽小可入袁曼雁 | 2023-05-05
這劇是不是用ChatGPT寫的呀？惠惠君 | 2023-05-02
200户連夜疏散，原因讓人憤怒！“損失超一億”，袁曼雁 | 2023-05-03
性騷擾慣犯，滾出娛樂圈謝飛揚 | 2023-05-05
48歲何炅自曝已老花眼，黃磊睡前認老，《向往的佼昌翰 | 2023-05-02
一個《長月燼明》倒了，《狐妖》《長相思》《惠惠君 | 2023-05-02
張天愛假期曬“酷”存照卷發披肩穿黑色吊嬴覓晴 | 2023-05-02
當年輕人開始不随份子錢袁曼雁 | 2023-05-02
畢滢用8年時間成功逼宮？曾被傳已婚生子的她，幸聽楓 | 2023-05-03
宋慧喬獲視後首次曬照，拿獎杯笑容温柔郜萌運 | 2023-05-02