大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

超級智能體生命力覺醒!可自我更新的AI來了,媽媽再也不用擔心數據瓶頸難題

2024-04-30 简体 HK SG TW

今天小編分享的科學經驗:超級智能體生命力覺醒!可自我更新的AI來了,媽媽再也不用擔心數據瓶頸難題,歡迎閱讀。

哭死啊,全球狂煉大模型,一互聯網的數據不夠用,根本不夠用。

訓練模型搞得跟《飢餓遊戲》似的,全球 AI 研究者,都在苦惱怎麼才能喂飽這群數據大胃王。

尤其在多模态任務中,這一問題尤為突出。

一籌莫展之際,來自人大系的初創團隊,用自家的新模型,率先在國内把 " 模型生成數據自己喂自己 " 變成了現實。

而且還是理解側和生成側雙管齊下,兩側都能生成高質量、多模态的新數據,對模型本身進行數據反哺。

模型是啥?

中關村論壇上剛剛露面的多模态大模型 Awaker 1.0。

團隊是誰?

智子引擎。由人大高瓴人工智能學院博士生高一钊創立,高瓴人工智能學院盧志武教授擔任顧問。公司成立時還是 2021 年,就早早打入多模态這條 " 無人區 " 賽道。

MOE 架構,解決多模态多任務訓練衝突問題

這不是智子引擎第一次發布模型。

去年 3 月 8 日,潛心研發兩年的團隊對外發布了自研的第一個多模态模型,百億級别參數的 ChatImg 序列模型,并基于此推出世界首個公開評測多模态對話應用 ChatImg(元乘象)。

後來,ChatImg 不斷迭代,新模型 Awaker 的研發也在并行推進。後者還繼承了前代模型的基礎能力。

相較于前代的 ChatImg 序列模型,Awaker 1.0采用了 MoE 模型架構。

要說原因嘛,是想要解決解決多模态多任務訓練存在嚴重衝突的問題。

采用 MoE 模型架構,可以更好地學習多模态通用能力以及各個任務所需的獨特能力,從而讓整個 Awaker 1.0 的能力在多個任務上有進一步提升。

數據勝千言:

鑑于主流多模态評測榜單存在評測數據洩露問題,智子團隊從嚴構建了自有評測集,大部分測試圖片來自個人手機相冊。

表格顯示,團隊讓 Awaker 1.0 和國内外最先進的 3 個多模态大模型進行了評測。

多提一嘴,由于 GPT-4V 和 Intern-VL 并不直接支持檢測任務,它們的檢測結果是通過要求模型使用語言描述物體方位得到的。

可以看到,在視覺問答和業務應用任務上,Awaker 1.0 的基座模型超過了 GPT-4V、Qwen-VL-Max 和 Intern-VL。

在描述、推理和檢測任務上,Awaker 1.0 的基座模型達到了次好效果。

最後來看平均分,Awaker 1.0 處于幾者中的最高值。

因此,上述結果也印證了多任務多模态模型采用 MoE 架構的有效性。

數據集評測結果有了,真實效果還需進一步上手體驗。

這裡主要問了它和對比大模型一些關于中文 OCR(圖片文字識别)和計數問題、詳細描述任務等問題。

這個主要考計數:

Awaker 1.0 能正确地給出答案,而其它三個模型均回答錯誤。

這個主要考中文 OCR:

正确回答的選手是 Qwen-VL-Max 和 Awaker 1.0。

最後這題考圖片内容理解。

GPT-4V 和 Awaker 1.0 不但能夠詳細地描述圖片的内容,而且能夠準确地識别出圖片中的細節,如圖中展示的可口可樂。

不得不提一嘴的是,Awaker 1.0 繼承了一些智子團隊此前廣為關注的研究成果。

說的就是你—— Awaker 1.0 的生成側。

Awaker 1.0 的生成側,是智子引擎自主研發的類 Sora 視頻生成底座 VDT(Video Diffusion Transformer)。

VDT 的學術論文早于 OpenAI Sora 的發布(去年 5 月),并已被頂會 ICLR 2024 接收。

VDT 與眾不同的創新之處,主要有兩點。

一是在技術架構上采用 Diffusion Transformer,在 OpenAI 之前就展現了 Transformer 在視頻生成領網域的巨大潛力。

它的優勢在于其出色的時間依賴性捕獲能力,能夠生成時間上連貫的視頻幀,包括模拟三維對象随時間的物理動态。

二是提出統一的時空掩碼建模機制,使 VDT 能夠處理多種視頻生成任務。

VDT 靈活的條件信息處理方式,如簡單的 token 空間拼接,有效地統一了不同長度和模态的信息。

同時,通過與該工作提出的時空掩碼建模機制結合,VDT 成為了一個通用的視頻擴散工具,在不修改模型結構的情況下可以應用于無條件生成、視頻後續幀預測、插幀、圖生視頻、視頻畫面補全等多種視頻生成任務。

據了解,智子引擎團隊不僅探索了 VDT 對簡單物理規律的模拟,發現它能模拟物理過程:

還在超寫實人像視頻生成任務上進行了深度探索。

因為肉眼對人臉及人的動态變化非常敏感,所以這個任務對視頻生成質量的要求非常高。不過,智子引擎已經突破超寫實人像視頻生成的大部分關鍵技術,比起 Sora 也沒在怕的。

口說無憑。

這是智子引擎結合 VDT 和可控生成,對人像視頻生成質量提升後的效果:

據悉,智子引擎還将繼續優化人物可控的生成算法,并積極進行商業化探索。

生成源源不斷的新互動數據

更值得關注的是,智子引擎團隊強調:

Awaker 1.0 是世界上首個能自主更新的多模态大模型。

換句話說,Awaker 1.0 是 " 活 " 的,它的參數可以實時持續地更新——這就導致 Awaker 1.0 區别于所有其它多模态大模型,

Awaker 1.0 的自主更新機制,包含三大關鍵技術,分别是:

數據主動生成

模型反思評估

模型連續更新

這三項技術,讓 Awaker 1.0 具備自主學習、自動反思和自主更新的能力,可以在這個世界自由探索,甚至與人類互動。

基于此,Awaker 1.0 在理解側和生成側都能生成源源不斷的新互動數據。

怎麼做到的?

在理解側,Awaker 1.0 與數字世界和現實世界進行互動。

在執行任務的過程中,Awaker 1.0 将場景行為數據反哺給模型,以實現持續更新與訓練。

在生成側,Awaker 1.0 可以進行高質量的多模态内容生成,為理解側模型提供更多的訓練數據。

在理解側和生成側的兩個循環中,Awaker 1.0 實際實現了将視覺理解與視覺生成進行融合。

要知道,Sora 問世後,越來越多聲音表示,要通往 AGI,必須達成 " 理解和生成的大一統 "。

以新知識注入為例,下面來看個具體跑通的例子。

Awaker 1.0 能夠不斷在互聯網上學習實時新聞信息,同時,它結合新學習到的新聞信息來回答各種復雜問題。

這和目前兩種主流,即 RAG 和傳統長上下文方式還不太一樣,Awaker 1.0 是真的把新知識 " 記憶 " 在自個兒模型的參數上。

可以看到,連續 3 天的自我更新過程中,Awaker 1.0 每天都能學習當天的新聞信息,并在描述中準确地說出對應信息。

而且雖然一直在學,Awaker 1.0 倒沒有顧此失彼,它并不會很快地遺忘學過的知識。

譬如,4 月 16 日學進去的智界 S7 相關知識,在 2 天後仍然被 Awaker 1.0 記住或理解。

So,在這個數據如金的時代,别再哀嘆 " 數據不夠用 " 了。

面對數據瓶頸的團隊們,一種可行、可用的新選擇,不就被 Awaker 1.0 送來了?

具身智能 " 活 " 的大腦

話說回來,正是由于實現了視覺理解與視覺生成的融合,當遇到 " 多模态大模型适配具身智能 " 的問題,Awaker 1.0 的驕傲已經顯露無疑。

事情是這樣的:

Awaker 1.0 這類多模态大模型,其具有的視覺理解能力可以天然與具身智能的 " 眼睛 " 相結合。

而且主流聲音也認為," 多模态大模型 + 具身智能 " 有可能大幅地提升具身智能的适應性和創造性,甚至是實現 AGI 的可行路徑。

理由不外乎兩點。

第一,人們期望具身智能擁有适應性,即智能體能夠通過持續學習來适應不斷變化的應用環境。

這樣一來,具身智能既能在已知多模态任務上越做越好,也能快速适應未知的多模态任務。

第二,人們還期望具身智能具有真正的創造性,希望它通過對環境的自主探索,能夠發現新的策略和解決方案,并探索 AI 的能力邊界。

但是二者的适配,并不是簡簡單單把多模态大模型鏈接個身體,或直接給具身智能裝個腦子那麼簡單。

就拿多模态大模型來說,至少有兩個明顯的問題擺在面前。

一是模型的迭代更新周期長,需要大量的人力投入;

二是模型的訓練數據都源自已有的數據,模型不能持續獲得大量的新知識。雖然通過 RAG 和擴長上下文視窗也可以注入持續出現的新知識,模型記不住,補救方式還會帶來額外的問題。

總之,目前的多模态大模型在實際應用場景中不具備很強的适應性,更不具備創造性,導致在行業落地時總是出現各種各樣的困難。

妙啊——還記得我們前面提到,Awaker 1.0 不僅可以學新知識,還能記住新知識,并且這種學習是每天的、持續的、及時的。

從這張框架圖可以看出,Awaker 1.0 能夠與各種智能設備結合,通過智能設備觀察世界,產生動作意圖,并自動構建指令控制智能設備完成各種動作。

在完成各種動作後,智能設備會自動產生各種反饋,Awaker 1.0 能夠從這些動作和反饋中獲取有效的訓練數據進行持續的自我更新,不斷強化模型的各種能力。

這就相當于具身智能擁有一個活的大腦了。

誰看了不說一句 how pay(狗頭)~

尤其重要的是,因為具備自主更新能力,Awaker 1.0不單單是可以和具身智能适配,它還适用于更廣泛的行業場景,能夠解決更復雜的實際任務。

例如,Awaker 1.0 與各種智能設備結合,從而實現雲邊協同。

這時候,Awaker 1.0 就是部署在雲端的 " 大腦 ",觀察、指揮,控制各種邊端智能設備執行各項任務。

而邊端智能設備執行各項任務時獲得的反饋,又會源源不斷地傳回給 Awaker 1.0,讓它持續地獲得訓練數據,不斷進行自我更新。

這可不是紙上談兵,Awaker 1.0 與智能設備的雲邊協同的技術路線,已經應用在電網智能巡檢、智慧城市等應用場景中,并取得了遠好于傳統小模型的識别效果。

多模态大模型能聽、能看、能說,在語音識别、影像處理、自然語言理解等多個領網域展現出了巨大的潛力和應用價值,幾乎無所不能。

但它的煩惱很明顯,如何不斷吸收新知識、适應新變化?

可以說,修煉内功、提升武藝成為了多模态大模型面臨的一個重要課題。

智子引擎 Awaker 1.0 的問世,為多模态大模型的自我超越提供了一把鑰匙。

它好像會了那個吸星大法,通過自主更新機制,打破了數據短缺的瓶頸,為多模态大模型的持續學習和自我進化提供了可能;再就是利用雲邊協同技術,勇闖在具身智能等智能體設備的具體應用場景。

這或許是邁向 AGI 的一小步,但同時也是多模态大模型自我超越之旅的一個開始。

漫長而艱難的旅程,需要智子引擎這樣的團隊,向技術的高峰不斷攀登。

—  完  —

點這裡關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們