今天小編分享的互聯網經驗:聯想CTO芮勇:大模型的下一步是智能體,歡迎閲讀。
钛媒體特别專題策劃《數字思考者 50 人》:探訪中國 50 位獨具代表的數字化思考者。我們理解的 "TechThinker" ,涵蓋了中國數字化浪潮中的技術踐行者、政策制定者與投資決策者。在這場長達 10 年的乘風破浪中,我們每個人都在分享技術進步的果實,卻鮮有人知道結果背後的故事。我們期待通過《50 人》,還原中國數字化推進過程中的關鍵決策,同時也為你呈現數字思考者們的管理與經營之道。
本文根據聯想集團首席技術官、高級副總裁芮勇博士在 2024 聯想創新科技大會上發言整理,授權發布
大模型能力令人驚豔,但局限性有待改進
大模型的出現可以説是 AI 歷史上一個重要的裏程碑,它開啓了人工智能發展的新紀元,在過去的 16 個月裏,由大模型引領的人工智能技術日新月異,模型參數從百億到遷移,再到萬億;模型類型從語言模型到視頻模型,再到音樂模型,涵蓋了生活工作的方方面面。
我認為,AI 歷史發展至今,沒有任何一個技術可以像今天的大模型一樣強大。
圖片來源:芮勇博士演講 PPT
但是,當我們覺得大模型要 " 一統天下 " 的時候,它的局限性也逐步顯現出來。例如,小學時我們就學過的 " 雞兔同籠 " 的數學問題,如果直接提問給大模型,即使它做對了,人們也不知道大模型是真正理解了問題,還是僅僅是記住了訓練的數據。
通過這個例子可以看出,今天的大模型沒有真正理解語言,沒有真正理解世界,也沒有真正具備推理和規劃的能力。現在的大模型僅僅是根據高維語義空間和聯合概率分布,将它訓練的數據中的海量片段進行簡單的邏輯性的連接。而這種狀态下的大模型雖然很強大,但局限性也很強。
要想突破這種局限性,我們不能再單純地利用大數據 + 大算力 + 大網絡的方式,堆砌大模型,而是要超越大模型,探索更接近人類思維方式和行為方式的人工智能。
大模型的下一步是智能體
基于上述觀點,我認為,大模型發展的下一步是:基于大模型的智能體。大模型的優勢與缺點都很明顯,優勢是具備強大的能力,缺點是局限性很強。
基于此,我們要 " 揚長長短 "。" 揚長 " 是要持續發揮并不斷增強大模型的能力;" 長短 " 是要打造基于大模型的智能體技術,真正能解決應用場景中遇見的問題。而這也是聯想的發展理念,左手抓大模型,右手抓智能體,兩手都要抓,兩手都要硬。
在 " 左手 " ——增強大模型方面,從技術角度出發。增強大模型方面有四個混合技術方向:
首先,小模型不會消失。未來一定是基于大模型和小模型混合的 " 意圖理解 " 技術。信息論裏熵 entropy 是度量信息量的部門,越有序,熵越小,越無序,熵越大。使用交叉熵 cross entropy 損失最小化原則,将意圖理解任務最優地分配給大模型和小模型,從而兼顧精準度和復雜性。
第二,未來一定是基于 CPU、GPU、NPU 混合調度的異構計算的天下。如今,大模型的訓練和推理過程中,瓶頸往往不在于芯片算力,而在于數據傳輸。通過同時優化計算負載和數據傳輸的方式,使總體執行時間縮短。
第三,基于模型微調 ( SFT ) 與檢索增強 ( RAG ) 混合的 " 智能問答 " 技術是最佳選擇。模型微調 ( SFT ) 與檢索增強 ( RAG ) 各有利弊,通過協同優化的方式,讓模型微調 ( SFT ) 與檢索增強 ( RAG ) 相向而行,從而達到最優結果。
第四,基于硬體加密與全棧可信架構的混合 " 隐私安全 " 技術。在安全領網域,僅靠硬體不夠,僅靠軟體業不夠,尤其是在後量子時代,通過在高維實數空間裏進行因式分解進行加密将成為未來安全的重要趨勢。
而這四類混合技術就需要雲邊端的協同,需要軟硬體的協同,需要傳輸與計算的協同。
在 " 右手 " ——智能體方面,如何打造智能體是我們面臨的問題。雖然大模型不是萬能的,但是沒有大模型是萬萬不能的。未來,大模型将占據 "C 位 ",作為整體的控制中樞,但僅依靠大模型又遠遠不夠。
怎麼做呢?首先,要讓智能體具有知道自身能力邊界的能力,就好像人一樣(人也是一個智能體),每個人都知道自身能力的邊界。例如,你問我 " 茴 " 字如何寫?我能告訴你,草字頭,下面是個 " 回 "。因為這個在我能力邊界内。但如果問我 " 茴 " 的四種寫法,這就超過了我得能力邊界,我會通過查字典,上網查詢等方式,查找答案。
回到大模型領網域,不具備認知自身能力邊界的能力,就使得大模型有時候會非常自信地告訴人們錯誤答案。
除了自我認知的能力,一個完整的智能體還要具備包括主動感知,意圖理解,復雜任務分解,以及長短期記憶機制等在内的多種能力。
綜上,大模型的下一步是智能體,智能體基于大模型而又超越大模型。