今天小編分享的科學經驗:中科院自動化所「全模态」大模型亮相,圖文音視頻3D傳感器信号都能理解,歡迎閲讀。
大模型搞多模态,做文字、影像、音視頻這幾樣就夠了?
中科院自動化所説不:
我們還加入了 3D 點雲和更多傳感器信号。
國產大模型新成員,千億參數全模态大模型「紫東太初 2.0」正式亮相。
不光能認知和理解多模态數據,還能在多輪對話中進一步與用户互動。
AI 離理解現實世界中復雜多樣的信息,又近了一步。
而且不僅如此,多個數據,甚至不同模态數據一起出現也難不倒它。
對于車内視角和車外視角的兩個視頻,可以找出共同特點。
圖書館照片和汽車鳴笛音頻一起出現,也能分析出奇怪之處并給出解釋。
認知、推理之外,紫東太初 2.0 也可以完成多模态生成任務。
影像、音頻、視頻一起出現,就能結合起來講一個完整的故事。
又或者提取多模态數據中的特征并進行模仿。
AI 如何理解全模态?
為什麼要做多模态甚至全模态?
團隊介紹到,現實世界中本來就充滿了復雜多樣的異構信息,人類自己也是綜合多模态信息去理解這個世界的。
從模态的種類來説,文本只是其中非常小的一部分。
但從數據收集的角度來説,文本卻又是數據最豐富的。
AI 最擅長的就是從海量數據中提取出隐藏的規律,所以語言大模型進展最快也就不奇怪了。
其他模态數據本來就少,尤其是做多模态需要的配對數據就更稀缺。
拿大家已經很熟悉的文生圖 AI 繪畫來説,訓練階段需要大量的圖 - 文配對數據,生產成本已經很高。
要想得到充足的文字、影像、音頻、視頻、3D、信号等模态之間的配對數據,那就想都别想了。
學術界為這個問題也想出一種解決辦法:
以其中一種模态為核心,作為橋梁連接其他模态。
在科研探索中又分化出兩條路線。
國外 Meta 的 ImageBind 選擇了以影像為核心,
國内的紫東太初 2.0 團隊則是 " 以語言為核心 " 路線的代表。
團隊對此的考量是,影像能表達的語義還是不夠豐富,比如像抽象的概念最後還是得靠語言。
以語言為核心連接起全模态數據,也為 AI 大模型打開很多新的應用空間,在發布會現場也做了展示。
全模态大模型用在哪?
外科手術中除了需要用到視覺,觸覺傳感器數據也同樣重要。
兩種數據跨模态融合,就解決了機器人輔助手術中的國際性難題。
同樣是醫學領網域,醫學影像、患者照片、病例等結合起來,還可以輔助罕見病的鑑别診斷。
交通領網域,多模态協同推理也能更精準研判違規行為。
對于網絡謠言常見的視頻畫面與音頻播報内容不一致的手段,多模态大模型也能加以識别。
企業和組織想要借助這些全模态能力開發應用,也可以直接到紫東太初大模型開放服務平台。
簡單來説,就是 AI 應用開發全生命周期的每一個環節所對應的服務都安排好了。
開放服務平台内置 MindSpore、Pytorch 等主流開源深度學習框架,提供大模型下遊微調、自動學習、可視化拖拽建模、互動式代碼開發等不同建模方式。主打全方位國產可控、快速切入客户場景,以及簡單易用的人工智能建模和應用。
全模态大模型怎麼煉成的?
説起來,全模态大模型并不是憑空出現。
2020 年 1 月,中科院自動化所就發起集團式突破瓶頸,聚焦多模态大模型路線
2021 年 9 月,發布首個千億參數三模态大模型紫東太初 1.0, 做到多模态統一表示,相互生成、推理。
在應用實踐過程中又發現數字時代萬物互聯的新需求,融入 3D、視頻、傳感信号等更多模态數據,進一步突破感知、認知和決策的互動屏障。
但全模态也不是終點。
在發布會現場,中科院自動化研究所所長徐波表示,站在更宏觀的視角,全模态大模型屬于信息智能的突破。
未來要通向 AGI,勢必還要與另兩大路線 " 類腦智能 " 和 " 博弈智能 " 再次融合。