中科院自動化所「全模态」大模型亮相，圖文音視頻3D傳感器信号都能理解

今天小編分享的科學經驗：中科院自動化所「全模态」大模型亮相，圖文音視頻3D傳感器信号都能理解，歡迎閱讀。

大模型搞多模态，做文字、影像、音視頻這幾樣就夠了？

中科院自動化所說不：

我們還加入了 3D 點雲和更多傳感器信号。

國產大模型新成員，千億參數全模态大模型「紫東太初 2.0」正式亮相。

不光能認知和理解多模态數據，還能在多輪對話中進一步與用戶互動。

AI 離理解現實世界中復雜多樣的信息，又近了一步。

而且不僅如此，多個數據，甚至不同模态數據一起出現也難不倒它。

對于車内視角和車外視角的兩個視頻，可以找出共同特點。

圖書館照片和汽車鳴笛音頻一起出現，也能分析出奇怪之處并給出解釋。

認知、推理之外，紫東太初 2.0 也可以完成多模态生成任務。

影像、音頻、視頻一起出現，就能結合起來講一個完整的故事。

又或者提取多模态數據中的特征并進行模仿。

AI 如何理解全模态？

為什麼要做多模态甚至全模态？

團隊介紹到，現實世界中本來就充滿了復雜多樣的異構信息，人類自己也是綜合多模态信息去理解這個世界的。

從模态的種類來說，文本只是其中非常小的一部分。

但從數據收集的角度來說，文本卻又是數據最豐富的。

AI 最擅長的就是從海量數據中提取出隐藏的規律，所以語言大模型進展最快也就不奇怪了。

其他模态數據本來就少，尤其是做多模态需要的配對數據就更稀缺。

拿大家已經很熟悉的文生圖 AI 繪畫來說，訓練階段需要大量的圖 - 文配對數據，生產成本已經很高。

要想得到充足的文字、影像、音頻、視頻、3D、信号等模态之間的配對數據，那就想都别想了。

學術界為這個問題也想出一種解決辦法：

以其中一種模态為核心，作為橋梁連接其他模态。

在科研探索中又分化出兩條路線。

國外 Meta 的 ImageBind 選擇了以影像為核心，

國内的紫東太初 2.0 團隊則是 " 以語言為核心 " 路線的代表。

團隊對此的考量是，影像能表達的語義還是不夠豐富，比如像抽象的概念最後還是得靠語言。

以語言為核心連接起全模态數據，也為 AI 大模型打開很多新的應用空間，在發布會現場也做了展示。‍‍

全模态大模型用在哪？

外科手術中除了需要用到視覺，觸覺傳感器數據也同樣重要。

兩種數據跨模态融合，就解決了機器人輔助手術中的國際性難題。

同樣是醫學領網域，醫學影像、患者照片、病例等結合起來，還可以輔助罕見病的鑑别診斷。

交通領網域，多模态協同推理也能更精準研判違規行為。

對于網絡謠言常見的視頻畫面與音頻播報内容不一致的手段，多模态大模型也能加以識别。

企業和組織想要借助這些全模态能力開發應用，也可以直接到紫東太初大模型開放服務平台。

簡單來說，就是 AI 應用開發全生命周期的每一個環節所對應的服務都安排好了。

開放服務平台内置 MindSpore、Pytorch 等主流開源深度學習框架，提供大模型下遊微調、自動學習、可視化拖拽建模、互動式代碼開發等不同建模方式。主打全方位國產可控、快速切入客戶場景，以及簡單易用的人工智能建模和應用。

全模态大模型怎麼煉成的？

說起來，全模态大模型并不是憑空出現。

2020 年 1 月，中科院自動化所就發起集團式突破瓶頸，聚焦多模态大模型路線

2021 年 9 月，發布首個千億參數三模态大模型紫東太初 1.0，做到多模态統一表示，相互生成、推理。

在應用實踐過程中又發現數字時代萬物互聯的新需求，融入 3D、視頻、傳感信号等更多模态數據，進一步突破感知、認知和決策的互動屏障。

但全模态也不是終點。

在發布會現場，中科院自動化研究所所長徐波表示，站在更宏觀的視角，全模态大模型屬于信息智能的突破。

未來要通向 AGI，勢必還要與另兩大路線 " 類腦智能 " 和 " 博弈智能 " 再次融合。