Meta開源多感官大模型，AI用6種模态體驗虛拟世界，聽引擎聲就會畫汽車 - 大酷樂

今天小編分享的科學經驗：Meta開源多感官大模型，AI用6種模态體驗虛拟世界，聽引擎聲就會畫汽車，歡迎閲讀。

Meta 最新6 模态大模型，讓 AI 以更接近人類的方式理解這個世界。

比如當你聽見倒水聲的時候就會想到杯子，聽到鬧鈴聲會想到鬧鍾，現在 AI 也可以。

盡管畫面中沒有出現人類，AI 聽到掌聲也能指出最有可能來自電腦。

這個大模型ImageBind以視覺為核心，結合文本、聲音、深度、熱量（紅外輻射）、運動（慣性傳感器），最終可以做到 6 個模态之間任意的理解和轉換。

如果與其他 AI 結合，還可以做到跨模态的生成。

比如聽到狗叫畫出一只狗，同時給出對應的深度圖和文字描述。

甚至做到不同模态之間的運算，如鳥的影像 + 海浪的聲音，得到鳥在海邊的影像。

團隊在論文中寫到，ImageBind 為設計和體驗身臨其境的虛拟世界打開了大門。

也就是離 Meta 心心念念的元宇宙又近了一步。

網友看到後也表示，又是一個掉下巴的進展。

ImageBind 代碼已開源，相關論文也被 CVPR 2023 選為 Highlight。

對于聲音 - 影像生成，論文中透露了更多細節。

并不是讓 AI 聽到聲音後先生成文字的提示詞，而是 Meta 自己復現了一個 DALL · E 2，并把其中的文本嵌入直接替換成了音頻嵌入。

結果就是 AI 聽到雨聲可以畫出一張雨景，聽到快艇發動機啓動聲可以畫出一條船。

如果想看更多示例，這裏也放上論文的補充視頻。

其中比較有意思的是，床上沒有人，但 AI 也認為打呼噜聲應該來自床。

ImageBind 能做到這些，核心方法是把所有模态的數據放入統一的聯合嵌入空間，無需使用每種不同模态組合對數據進行訓練。

并且用這種方法，只需要很少的人類監督。

如視頻天然就把畫面與聲音做了配對，網絡中也可以收集到天然把影像和文字配對的内容等。

而以影像 / 視頻為中心訓練好 AI 後，對于原始數據中沒有直接聯系的模态，比如語音和熱量，ImageBind 表現出湧現能力，把他們自發聯系起來。

在定量測試中，統一多模态的 ImageBind 在音頻和深度信息理解上也超越了對應的專用模型。

Meta 團隊認為，當人類從世界吸收信息時，我們天生會使用多種感官，而且人僅用極少數例子就能學習新概念的能力也來自于次。

比如人類在書本中讀到對動物的描述，之後就能在生活中認出這種動物，或看到一張不熟悉的汽車照片就能預測起發動機的聲音。

過去 AI 沒有掌握這個技能，一大障礙就是要把所有可能的模态兩兩組合做數據配對難以實現。

現在有了多模态聯合學習的方法，就能規避這個問題。

團隊表示未來還将加入觸覺、語音、嗅覺和大腦 fMRI，進一步探索多模态大模型的可能性

對于目前版本，Meta 也放出了一個簡單的在線 Demo，感興趣的話可以去試試。

Demo：

https://imagebind.metademolab.com/demo

GitHub：

https://github.com/facebookresearch/ImageBind

論文：

https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf

參考鏈接：

[ 1 ] https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/

熱門排行

分析師狠批特朗普對等關税：坑慘美國消費者且繁綺文 | 2025-04-03
搬運工瞞着家人購買29份“泰康人壽”保單，總郟君昊 | 2025-04-03
娛樂圈“惡毒女配”官宣離婚，一點都不可惜！集玲琳 | 2025-04-03
全新智己 L6 汽車全系搭載 800V 高壓平台、袁曼雁 | 2025-04-03
樂道換人，蔚來轉舵袁曼雁 | 2025-04-03
杜蘭特今夏對留在太陽持開放态度！布克：想和KD 集玲琳 | 2025-04-03
三部門：金融管理部門要會同有關部門加強金融寸飛蘭 | 2025-04-03
貴州茅台：2024年淨賺862億元，2025年增速目标甄正浩 | 2025-04-03
Jeep 全新指南者預告圖亮相：可選混動 / 插混郜萌運 | 2025-04-03
翻身無望！事業婚姻雙失敗，趙薇沉寂4年再曝近郟君昊 | 2025-04-03
高露現身上海虹橋機場黑色外套點綴亮色愛惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：處理器更新為天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懶癌”發病率上升，定期體檢别忽視幸聽楓 | 2023-05-02
宋慧喬獲百想視後韓素希發圖手動加愛心表賁芳蕤 | 2023-05-02
十年了，他們終于要HE！惠惠君 | 2023-05-07
曹操墓，裏面都有啥？衛青柏 | 2023-05-02
中央部署經濟工作，釋放5大信号郜萌運 | 2023-05-02
陳自瑤抱病為愛女做蛋糕慶生，王浩信點贊沒露賁芳蕤 | 2023-05-02
高德上線手機彎道會車預警功能習又夏 | 2023-05-02
高端國產車：軍車血統，目前電動車越野的“天花謝飛揚 | 2023-05-02
這些被抓來做實驗的流浪狗，最終拯救了無數糖集玲琳 | 2023-05-02
等比例長大的童星，李蘭迪算一個郟君昊 | 2023-05-02
信用風險釋放趨緩，結構性風險需重點關注 — 袁曼雁 | 2023-05-02
《雲襄傳》終于抬上來啦，男O女A讓人好上頭！集玲琳 | 2023-05-02
21家A股遊戲公司2022年收入651億今年“遊衛青柏 | 2023-05-04
與周立波夫婦鬧糾紛成老賴，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
普京籤署總統令，批準對俄刑法典相關法條的修集玲琳 | 2023-05-02
中銀證券給予南京銀行增持評級袁曼雁 | 2023-05-03
解除資格！停止一切合作佼昌翰 | 2023-05-02
前董事長被免，天山生物全面進入“中植系”時惠惠君 | 2023-05-02
3699起聯想小新mini主機上架 13代酷睿标壓習又夏 | 2023-05-05
瘋成這樣，怎麼還能被全網吹捧？郜萌運 | 2023-05-02
狂吼11次“讓一下”！交警咆哮開道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收購美國第一共和銀行謝飛揚 | 2023-05-02
台劇赢麻了，又來一部8.9 衛青柏 | 2023-05-02
下降45分，上漲35分！34所自劃線院校復試分數線袁曼雁 | 2023-05-07
事關農村土地承包和農民權益，《農村土地承包郟君昊 | 2023-05-02
"三高"已盯上青少年，做好這件事是關鍵習又夏 | 2023-05-05
五一檔沒一個能打的集玲琳 | 2023-05-05
恐怖韓劇下神壇，這次膽小可入袁曼雁 | 2023-05-05
這劇是不是用ChatGPT寫的呀？惠惠君 | 2023-05-02
性騷擾慣犯，滾出娛樂圈謝飛揚 | 2023-05-05
200户連夜疏散，原因讓人憤怒！“損失超一億”，袁曼雁 | 2023-05-03
48歲何炅自曝已老花眼，黃磊睡前認老，《向往的佼昌翰 | 2023-05-02
一個《長月燼明》倒了，《狐妖》《長相思》《惠惠君 | 2023-05-02
當年輕人開始不随份子錢袁曼雁 | 2023-05-02
張天愛假期曬“酷”存照卷發披肩穿黑色吊嬴覓晴 | 2023-05-02
畢滢用8年時間成功逼宮？曾被傳已婚生子的她，幸聽楓 | 2023-05-03
宋慧喬獲視後首次曬照，拿獎杯笑容温柔郜萌運 | 2023-05-02