大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科技

「大一統」大模型論文爆火,4種模态任意輸入輸出,華人大學生5篇頂會一作,網友:近期最不可思議的論文

2023-05-28 简体 HK SG TW

今天小編分享的科技經驗:「大一統」大模型論文爆火,4種模态任意輸入輸出,華人大學生5篇頂會一作,網友:近期最不可思議的論文,歡迎閱讀。

多模态大模型,終于迎來 " 大一統 " 時刻!

從聲音、文字、影像到視頻,所有模态被徹底打通,如同人腦一般,實現了真正意義上的任意輸入,任意輸出。

要知道,多模态一直是學術界公認要達到更強智能的必經之路,連GPT-4都在往這個方向發展。

也正是因此,這項來自微軟、北卡羅來納大學教堂山分校的新研究一經 po 出,立即在社交媒體上爆火,有網友驚嘆:

這是我最近見過最不可思議的一篇論文!

究竟有多不可思議?

只需告訴大模型,想要 " 一只玩滑板的泰迪熊 ",并輸入一張照片 + 一段聲音:

它立刻就能精準 get 要點,生成一段在下雨天在城市裡玩滑板的心碎小熊錄像,仔細聽還會發現配上了新的雨聲:

效果太過于鵝妹子嘤,以至于不少網友表示 " 有被吓到 ":

還有網友感嘆 " 新時代的到來 ":

等不及看到創作者們用這些 AI 工具制作各種沉浸式故事體驗了。這簡直給 RPG 角色扮演遊戲賦予了全新的意義。

值得一提的是,一作 Zineng Tang 雖然本科還沒畢業,但他已經在 CVPR、發了 6 篇頂會論文,其中5 篇都是一作。

所以,這個号稱能夠 " 轉一切 "(any-to-any)的大一統大模型,實現效果究竟如何?

4 種模态随意選,打出 " 組合拳 "

大模型 CoDi,具有任意輸入和輸出圖、文、聲音、視頻 4 種模态的能力。

無論是單模态生成單模态(下圖黃)、多模态生成單模态(下圖紅)、還是多模态生成多模态(下圖紫),只要指定輸入和輸出的模态,CoDi 就能理解并生成想要的效果:

先來看單模态生成單模态。

輸入任意一種模态,CoDi 都能聯想并輸出指定的模态,例如,輸入一張風景影像,就能輸出 " 山景,日出 " 這樣的文字提示詞:

或是輸入一段鐵軌碰撞聲,就能生成一張地鐵影像:

面對多模态生成單模态時,CoDi 威力同樣不減。

輸入一張 " 熊貓吃竹子 " 影像,加上一段 " 在咖啡桌上吃 " 的文字要求:

CoDi 就能生成一段大熊貓坐在咖啡桌旁吃竹子的視頻:

或是輸入一組文字提示詞 " 油畫,恐怖畫風,優雅復雜的概念藝術,克雷格 · 穆林斯(CG 繪畫之父)風格 ",加上一段拍打木板的水聲:

CoDi 在經過聯想後,就能輸出一張精致的、氣勢恢宏的黃昏時分海盜船畫像:

最後來看看多模态生成多模态的效果。

給 CoDi 提供一段鋼琴聲,加上一張森林中的照片:

CoDi 就能想象出一段 " 在森林中彈鋼琴 " 的文字,并配上對應的插圖:

要知道在這之前,AI 生成的視頻不少都沒有配音,停留在老式的 " 無聲電影 " 階段。

然而 CoDi 不僅能生成視頻,還能生成搭配視頻食用的聲音。

例如根據一個 " 天空中的花火 " 文字提示詞 + 一段對應的音頻,就能生成一個帶有爆炸聲音的煙花錄像:

所以,CoDi 究竟是如何做到理解不同的模态,并 " 打出組合拳 " 的?

用 " 對齊 " 來節省大模型訓練數據

事實上,CoDi 的打造面臨兩個難點。

首先是缺少訓練數據的問題,以作者們能收集到的數據集為例:

無論是像 Laion400M 這樣的文圖數據集、還是像 AudioSet 之類的音頻文字數據集,或是油管上的影像音視頻數據集,以及 Webvid10M 之類的視頻數據集,都屬于 " 單模态生成單個或兩個模态 " 的類型。

然而,多模态大模型的訓練數據需求,随着模态數量的增加呈指數級增長,許多輸入輸出組合,往往缺少對應的訓練數據集。

其次,已有的擴散模型大多是 1v1 的類型,如何設計并訓練模型,确保多模态輸入輸出的效果,同樣是個問題。

針對這兩個問題,作者們決定分兩個階段打造 CoDi,讓它不僅能實現單模态 " 完美輸出 "、還能做到多模态 "1+1>2"。

在階段一,組合條件訓練,給每個模态都打造一個潛在擴散模型(LDM),進行組合訓練。

針對 A 模态生成 B 模态數據集缺失的問題,作者們提出了一種名為橋接對齊(Bridging Alignment)的策略。

具體來說,就是以帶文本模态的數據集為 " 中介 ",對齊另外幾種模态的訓練效果。

以音頻生成影像為例。

雖然音頻生成影像數據集不多,但文本生成音頻、文本生成影像的數據集卻有不少,因此可以将這兩類數據集合并起來,用于訓練文本 + 音頻生成影像的效果。

在此期間,文本和音頻輸入經過模型處理,會被 " 放置 " 進一個共享特征空間,并用輸出 LDM 來處理輸入輸入的組合特征,輸出對應的影像結果。

階段二,進一步增加生成的模态數量。

在階段一的基礎上,給每個潛在擴散模型和環境編碼器上增加一個交叉注意力模塊,就能将潛在擴散模型的潛變量投射到共享空間中,使得生成的模态也進一步多樣化。

最終訓練出來的模型,雖然訓練數據類型不是 " 全能的 ",但也具備了多模态輸入、多模态輸出的能力。

值得一提的是,可别以為這種方法會降低模型生成的質量。

事實上,在多種評估方法上,CoDi 均超越了現有多模态大模型的生成效果。

華人大學生,5 篇頂會論文一作

一作Zineng Tang,本科就讀于北卡羅來納大學教堂山分校,也是微軟研究院的實習生,今年 6 月将進入加州大學伯克利分校讀博。

他的研究興趣在于多模态學習、機器學習和 NLP 領網域,而從大一開始,他就在 NeurIPS、CVPR、ACL 和 NAACL 等頂會上相繼發了 6 篇文章,其中 5 篇一作。

就在今年 1 月,Zineng Tang 還獲得了 2023 年的美國計算機研究學會(CRA)設立的優秀大學生研究員獎。

每年全美國能獲得這個獎項的大學生,只有 4 人。

這一獎項旨在表彰在計算機研究領網域有傑出研究潛力的大學生,包括 MIT、斯坦福、哈佛和耶魯大學等不少北美名校在内,每年都會提名一些優秀學生,經過層層篩選後決定獲獎者。

通訊作者Ziyi Yang,目前是微軟 Azure 認知服務研究團隊(CSR)的高級研究員,研究方向是多模态理解和生成,文檔智能和 NLP 等。

在加入微軟之前,他本科畢業于南京大學物理系,并于斯坦福大學獲得電氣工程碩士和機械工程博士學位。

通訊作者Mohit Bansal,是北卡羅來納大學教堂山分校計算機系教授。他于加州大學伯克利分校獲得博士學位,目前研究方向是 NLP 和多模态機器學習,尤其側重語言生成問答和對話、以及可解釋深度學習等。

你感覺多模态大模型發展的下一階段,會是什麼樣子?

論文地址:

https://arxiv.org/abs/2305.11846

項目地址:

https://github.com/microsoft/i-Code/tree/main/i-Code-V3

參考鏈接:

[ 1 ] https://twitter.com/AviSchiffmann/status/1660771055676588033

[ 2 ] https://twitter.com/ZinengTang/status/1660726736642887681

[ 3 ] https://cra.org/2023-outstanding-undergraduate-researcher-award-recipients/

[ 4 ] https://codi-gen.github.io/

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們