今天小編分享的科學經驗:樹莓派上流暢運行大模型!讓終端具備自主學習與記憶能力,歡迎閱讀。
2022 年初,彼時 OpenAI 還未發布 ChatGPT,RockAI 就已經選擇押注非 Transformer路線。
這一在當時看來非主流的選擇,如今正逐漸顯現出前瞻性。
他們打造的端側大模型已經可以在樹莓派這樣的微型設備上流暢運行,首批搭載 Yan 架構大模型的具身智能機器人也已經面世。
當下 AI 算力競賽愈演愈烈之際,他們的" 低算力 "" 群體智能 "之路正在獲得更多關注。
本期「大模型創新架構」主題訪談,量子位邀請到RockAI CEO 劉凡平,聊聊他們選擇非 Transformer 架構路線背後的故事,以及通過架構及算法創新實現 AGI 的技術願景。
△RockAI CEO 劉凡平
以下為量子位與RockAI CEO 劉凡平的對話實錄整理:
非 Transformer 逆勢選擇
量子位:介紹一下 RockAI 的創立背景吧,當時為什麼選擇做非 Transformer 架構?
劉凡平:RockAI 成立的工商登記的時間是 2023 年 6 月,但其實我們很多年前就在做這些事情了,當時 ChatGPT 還沒有火。
我最早在 2016、2017 年研究 Attention 機制時就認識到 Transformer 存在很多問題。2022 年初創業時,我們就堅定走非 Transformer 路線,主要是因為意識到 Transformer又耗算力又耗數據。
在此之前,我們其實也探索過 Transformer 架構的優化方向,做了線性 Attention 等改進,但發現這些都沒有解決根本問題,所以索性放棄,直接走非 Transformer這條路。
量子位:當時設想的應用場景是什麼?
劉凡平:最初做的其實是搜索引擎,當時我們的搜索引擎是 " 所搜即所得 ",能夠直接給出答案,而不是給一堆網頁鏈接。這有點像現在的Kimi或Perplexity那種模式,但我們當時做得很早。
那時候就發現 Transformer 滿足不了我們的需求,首先是幻覺問題非常嚴重,另外我們希望 AI 能實現個性化的自主學習和記憶,這兩點都是當時 Transformer 基本上做不到的,甚至到現在都無法做到。
量子位:為什麼從做搜索引擎轉變成現在做端側 AI 和群體智能?
劉凡平:其實是很自然的選擇和轉變。搜索引擎幫助用戶獲得信息,但它對用戶的了解比較淺,只能通過用戶的 query、點擊鏈接和我們給的結果來了解用戶。
這種方式對記憶和自主學習的影響偏小,僅停留在傳統機器學習的用戶畫像這個很淺的層面。我們想走得更遠,讓 AI 與用戶之間產生更多粘性,所以想到讓設備走進來。
我們當時判斷 AGI(通用人工智能)會和設備有強關聯,而不僅僅是互聯網的模式。搜索引擎只是通往 AGI 的一個工具,并沒有成為基建,而人工智能要成為基建,就一定要和設備關聯起來。
其實 2022 年底 GPT 火了之後,很多人不理解我們為什麼要做非 Transformer 架構大模型。甚至到 2023 年,很多人都不太理解,現在随着越來越多人看到了 Transformer 之外的可能性,大家開始慢慢理解了。
量子位:能不能介紹一下什麼是群體智能?
劉凡平:我們對群體智能有一個定義,具備自主學習的若幹智能單元,通過環境感知、自我組織、互動協作共同解決復雜問題,并在不斷變化的環境中實現整體智能提升。我們還定義了群體智能的四個階段:
第一階段是創新性基礎架構,摒棄傳統架構、研發低算力需求的創新架構和算法。
第二階段是多元化硬體生态,構建跨平台、低功耗、多模态兼容的模型,實現在各類終端設備的靈活部署。
第三階段是自适應智能進化,賦予智能單元自主學習能力,建立持續進化體系,實現自我優化和迭代。
第四階段是協同化群體智能,構建智能單元間的高效信息交換與協作機制,形成既獨立又整體的智能生态系統。
整個過程我們希望是從互聯網模式走向物理世界的,讓物理世界的每一種互動都成為數據,而這種數據能更了解用戶,同時 AI 對數據的學習也能反饋到用戶身上,我們認為這才是最有價值的。
△RockAI 群體智能發展理念 MCSD 與類腦激活
量子位:能不能介紹一下 Yan 架構大模型的核心技術 MCSD?
劉凡平:其實 MCSD 只是我們模型的一個模塊,這個模塊降低了時間復雜度和空間復雜度。
舉個例子,Transformer 中的 Attention 機制就像燃油汽車的發動機,是最核心的部分。現在很多人在優化它,相當于把發動機從自然吸氣變成渦輪增壓,但無論怎麼改,它就是一個燃油發動機。
我們的 MCSD 相當于把它變成了新能源汽車的電機。Attention 機制建立了一個大矩陣去計算 token 與 token 之間的關聯關系,時間復雜度是O ( n ² ) ,性能損耗非常大。
而我們的 MCSD 可以通俗理解為,對輸入内容中的 token 進行動态的增強和衰減。
比如我想預測 " 今天北京的溫度是多少 " 這個句子的下一個 token 是什麼,是問号還是句号。其中的 " 今天 " 兩個字對後面用問号還是句号影響很小,所以對它進行衰減;而 " 多少 " 對下一個 token 影響比較大,所以進行增強。
這個過程只需要算一次,就把計算復雜度從O ( n ² ) 降為了O ( n ) ,推理就更快,基本上做到一個穩定常量級的推理。
△《MCSD: An Efficient Language Model with Diverse Fusion》論文
量子位:除了 MCSD,Yan 架構大模型還有什麼核心技術?
劉凡平:我們還提出了類腦激活機制,它是在 MCSD 基礎上擴展的橫向内容。這個類腦激活機制我們内部稱為" 動态神經元選擇驅動算法 "。
人的大腦是動态激活的。開車時,視覺皮層被大量激活;休息時,視覺皮層被抑制;考試時,邏輯區被激活;回憶問題時,記憶區被激活。而傳統 Transformer 架構,哪怕算 1+1,所有神經元都會參與運算,這是非常不合理的。
MoE(混合專家模型)雖然減少了參與計算的參數,但它在模型初始化前就定義好了分支數量,并不是真正動态激活的。我們的做法是,當用戶輸入 query 時,會動态組建一個神經網絡,這個網絡是根據需要臨時建立的,不是預設好的。
形象地說,MoE 相當于在河上提前修好五座橋,用戶來了後選擇一座過河;而我們是沒有現成的橋,只提供一堆工具(神經元),用戶需要過河時,這些工具動态地創建出一座橋,問題解決後這個橋就消失了。
△MCSD 與類腦激活機制示意
量子位:這種計算復雜度為 O ( n ) 的模型能在現實中提供什麼新的可能性?
劉凡平:最典型的是設備端應用。很多設備廠商找我們,是因為我們的模型能在他們設備上跑起來。Transformer 架構如果要在骁龍 6 的手機上運行,參數量需要降得很低,而我們可以直接運行。
像樹莓派這樣的低端設備,我們也能運行起來,這對物聯網設備很重要。還有無人機、具身智能機器人等,如果它們需要聯網才能對話,那用戶體驗是很糟糕的。我們能讓模型部署在設備上,實現離線智能,這是非常大的優勢。
量子位:計算復雜度的下降和模型性能的提升可以兼得嗎?
劉凡平:我認為是可以的。這不是拍腦袋的感覺,而是基于兩方面原因:
一是我們做了很多實驗,發現标準 Attention 機制的 O ( n ² ) 計算復雜度有部分是浪費算力的;二是從腦科學角度看,即使是神經元很少的簡單生物,也能擁有一定的智能。
我們認為關鍵是底層算法的問題。我們不僅在做架構創新,還有基礎算法的創新。如辛頓所說,反向傳播算法本身也存在問題。要進一步發展人工智能,底層算法必須要做大量創新。
底層算法決定了上層架構,底層算法如果不行,架構層的創新就會越來越有限。
訓推同步與端側革命
量子位:能不能描繪一下群體智能最終的場景是什麼樣子?
劉凡平:人類社會的發展一定會伴随着新設備的產生,未來可能每個人都會有一個新的設備,這個設備可能不再是手機,因為手機的場景有限。
這個設備會是什麼樣現在不清楚,但我認為它更多會在物理世界幫助你,且不一定是機器人形式。會幫你解決日常生活中的絕大部分問題,具有高度隐私性,完全忠于你且不會洩露隐私。
更重要的是,這些設備具備自主學習能力。比如你告訴它做個蛋炒飯,它暫時還不會做,但它會在物理世界中自己學習怎麼做。設備之間也會相互關聯,在人類社會之外,還有人與機器的社會、機器與機器的社會。
不過這不是說矽基生命會產生,而是服務人類社會的過程。我是個務實主義者,不會幻想非常科幻的場景。未來社會只要人存在,就是為人服務的社會,沒那麼科幻,但一定會讓人更簡單、更高效地思考和行動。
量子位:目前我們是在群體智能四個階段裡的哪個階段?
劉凡平:第一個階段" 創新性基礎架構 "已經完全實現。第二個階段" 多元化硬體生态 "要兼容非常廣泛的設備,我們也已經做到了。
現在正邁向第三個階段" 自适應智能進化 "。因為自主學習和記憶技術還沒有正式對外發布,一旦具備後,我們就完全進入第三階段。第四階段是" 協同化群體智能 "階段,所以目前我們處于第二階段向第三階段過渡的階段。
量子位:第三階段自适應智能進化的門檻是什麼,最大挑戰是什麼?
劉凡平:" 自适應智能進化 " 的兩個關鍵門檻是自主學習和記憶能力。最大挑戰是" 訓推同步 ",即訓練和推理同步進行。
這個挑戰非常高,不是說 DeepSeek 或是 OpenAI 就可以輕易做到的。他們做的其實更多還是對 Transformer 的優化,而訓推同步在行業内都沒有人做過。
Google 最近發表了一篇《Titans: Learning to Memorize at Test Time》的論文,也算是記憶能力的一種探索,但還不夠,而我們已經在實施自主學習與記憶能力的路上。
△《Titans: Learning to Memorize at Test Time》論文
我們的技術規劃有兩個方面:一是從架構層面,通過類腦激活機制改進在記憶過程中讓每個神經元能記的東西更多;二是基礎算法創新,特别是優化反向傳播算法。
推理現在看起來容易,一台 GPU 設備就能完成,但訓練卻很難,主要是因為反向傳播算法。如果訓練和推理算法要求都很低,那麼就可以在終端設備上直接做訓練推理同步,直接從物理世界互動獲得數據進行訓練,這是理想狀态。
量子位:預計第三階段自适應智能進化和第四階段協同化群體智能會在多久後實現?
劉凡平:第三階段我們預計在未來一到兩年内實現,不會特别久。
我們内部已經看到了一些效果,去年 6 月份世界人工智能大會上我們對外演示過這個能力,但那還屬于實驗室版本,沒有商用。
第四階段 " 協同化群體智能 " 需要的時間更長,因為它涉及設備與設備之間的通信,這方面雖然我們有很多研究,但确實還有障礙,預計 2 到 3 年後可能會看到明顯進展。
△群體智能示意
量子位:要實現群體智能,不同設備上的多個模型相互協作的挑戰大嗎?
劉凡平:很大,這正是我們實驗室團隊正在研究的問題。
協同學習是很難的,它首先需要協同的機制和語言。人與人交流可以通過語言,但機器之間的交流大概率不是語言形式,因為語言交流有時間成本,且語言是具象表達,而非抽象的。
機器之間的協作一定是以更精準的方式進行,而目前我們還沒找到很好的方式。我們在研究機器與機器之間的交流模式,包括神經元交換的方式。
舉個例子,比如我的模型在開車時知道哪些神經元被激活,那能否把這部分神經元移植到另一個不會開車的模型上?移植後,那個模型無需訓練就可以直接開車,實現能力遷移。
同樣,當兩個模型需要一起完成任務時,如何讓它們默契配合?這需要實時同步的文本、視覺、語音的互動。
目前大模型的互動,輸入和輸出不是實時同步的,用戶輸入文本後,模型要等待完整輸入完成才開始思考再輸出。但人與人交流時,對方開始說話之後你同步就在思考了。
量子位:這與傳統人與智能音箱的那種互動有何本質區别?
劉凡平:傳統智能音箱是單向指令型互動,比如讓小度播放音樂,它就播放。我們的模式是,當你剛說 " 幫我播一首 ",還沒說到後文時,模型已經開始推理你想聽誰的歌,開始理解你的意圖并準備結果,這能讓設備更像人而非工具。
這需要完全不同的技術實現。傳統多模态模型常常是分開訓練的,先訓練自然語言模型,再訓練音頻、視頻模型,然後做對齊。
而我們的方法更像教嬰兒,不是先學文本再學音頻再學視覺,而是同時學習,這產生的對世界的認識是完全不同的,改變了大模型的學習模式。
比如教孩子認字,當你指着字母說 " 這是 A" 時,聲音和視覺是同步輸入給他的。重復幾次孩子很快就能認出字母。實時學習不需要海量數據,只需要 few-shot,而傳統大模型需要大量樣本輸入去學習。
當前的大模型由于架構問題和反向傳播的限制,導致強依賴數據和算力。而實時模型對數據的要求會大大降低。
一個人從嬰兒到大學畢業,并沒有看過一萬億 token 的數據,而現在大模型訓練動辄需要十幾 T 的 token 來訓,這顯現了現有方法的缺陷。
量子位:RockAI 目前已經擺脫了對海量數據的需求嗎?
劉凡平:我們擺脫了一部分,但沒有徹底解決。我們希望基于自主學習和記憶能力徹底解決這個問題。
我們在人機互動方面已經取得了進展,但因為自主學習和記憶能力還未產品化應用,所以目前與其他產品的互動體驗差異外部感知還不是特别明顯,但路線是完全不同的。
量子位:我們目前能在哪些終端設備上實現兼容?與其他小型開源模型有什麼區别?
劉凡平:對于推理的話基本上大部分終端都可以兼容,包括樹莓派。對于訓練,我們測試至少需要英特爾 i7以上水平的處理器。
在兼容性方面,我們應該是走在前面的,至少在2024 年 5 月前就已在樹莓派上實現推理,并在 2024 年的世界人工智能大會上公開開放體驗。到現在應該還沒有哪家公司能做到這個程度。
我們與那些小型開源模型的區别很大。它們是通過縮減參數量來适應設備,而我們不是靠犧牲模型參數量來實現設備端訓練,這樣做意義不大。
△樹莓派示意圖
量子位:這種廣泛的硬體适配會給我們生活帶來什麼實際改變?
劉凡平:改變會很多。尤其是自主學習和和記憶能力產品化後,它可以實現高度個性化的互動體驗。與你交流的 AI 是完全個性化的,了解你的一切,能給出非常針對性的建議。不像現在的大模型問同樣的問題給的回答都是類似的。
比如你是科技媒體人,有自己的寫作風格,現在想讓主流大模型幫你寫作需要做大量 prompt 調整,但一旦端側能夠實現高度個性化後,你設備上的模型會非常了解你的風格,不需要額外調試就能按你的心意和風格寫作,且非常隐私安全。
同時我們也不希望是通過長上下文結合歷史對話的方式,來實現個性化,這種方式是不持久的。
再比如在家庭場景中,有多模态能力的端側設備能學習你平時接待客人的習慣是什麼,自然知道這種場景該做什麼,不需要專門下指令。
它會越來越貼近你的心意,了解你,與你的粘性越來越高,這是一種完全個性化的體驗,而不是所有人用同一個產品都得到相似的輸出和反饋。
量子位:推理訓練并行架構會是未來的大方向嗎?會多大程度影響具身智能和人機互動方式?
劉凡平:我認為一定會影響,而且影響非常大。我們和國内很多代表性的具身智能機器人廠家都聊過,現在具身智能有個很大問題。
我們認為具身智能機器人陷入了惡性循環:機器賣不出去,制造成本下不來;成本下不來,機器更加賣不出去。核心在于機器沒有真正的智能,賣不出好價格,無法建立正向循環降低邊際成本,尤其是制造成本。
問題不是雲端大模型不夠好,而是雲端大模型不适合具身智能廠家。真正适合具身智能的是訓練和推理能同步的模型。機器人是個性化服務,具身智能廠家不可能靠預設來滿足用戶所有的需求。
即使硬體做得再好、再優秀,都不是用戶購買的決定性因素,用戶購買只會因為它的智能足夠好。
幾十萬元一台機器人,回家只能走路,沒人買。但如果能告訴它家裡布局,讓它做各種家務就不一樣了。這些通用雲端大模型做不了,因為每個家庭需求不同,每個場景不同,每個機器人也不同。
未來機器人的大腦一定會與機器人強綁定,是完全一對一關系,不像現在雲端大模型與機器人是 1 對 n 關系。
這就像人類大腦,出生時相似,但越來越不同。因為每個人的生長環境、後天學習都會影響大腦決策。同樣拿水的動作,不同人的大腦發出的指令一定不是完全相同的,因為大家用的不是同一具身體,大腦與身體是綁定運作的。
具身智能也一樣,大腦會與機器強綁定,即使機器出廠規格相同,因每個家庭情況不同,使用方式也會不同。雲端大模型無法完成這個過程,未來具身智能一定會被訓練推理同步的端側模型技術颠覆和驅動。
△Yan 架構大模型在具身智能機器人的應用
量子位:現在做訓練推理并行這方面工作的公司多嗎?
劉凡平:沒有,現在真正做訓練推理并行的只有我們一家。
量子位:目前 RockAI 已經與哪些公司建立了合作?有沒有比較激動人心的落地場景可以分享?
劉凡平:具體的公司名字不方便透露,但會有 PC 廠商在產品上離線部署我們的大模型,直接量產使用。
具身智能廠商也有合作,已經有出貨,他們很青睐我們模型的離線部署能力。
量子位:您覺得未來端側和雲側模型會是怎樣的關系?會一家通吃還是共存協作?
劉凡平:我認為長期來說是共存的,但雲端大模型市場一定會被收窄。
我們講的端側大模型可能和行業内很多人的定義不同。現在很多人所謂的端側大模型只是把 Transformer 通過量化、剪枝等技術讓它能在端側設備上運行,這沒有意義。
我們認為的端側大模型就像人的大腦一樣,沒有所謂雲端大腦,大腦就在終端裡,每個設備都擁有自己的智能,這是我們的願景。雲端大模型無法讓每台設備擁有自己的智能,這是致命缺陷。
雲端大模型可以解決宏觀問題,比如需要超算來解決的人類社會極度復雜問題,雲端大模型非常有意義。但普通人生活中的高頻問題,比如讓機器人做會議紀要、拿水,不需要雲端大模型,雲端大模型也做不到。
另外,雲端大模型做不到個性化。它不可能為全球 80 億人部署 80 億個模型,能有 10 個模型都不錯了。但當設備具備自主學習、記憶、互動能力時,才是人工智能新的突破時刻。
量子位:以後還需要雲側和端側協同嗎?還是端側直接解決大部分問題?
劉凡平:會有協同,但不是現在理解的協同。我們的端側大模型是去中心化的,沒有中心節點,而雲端大模型本身就是中心節點。
未來的端雲協同可能更像人類的協同。在公司時,部門 leader 和同事們開會,此時她是中心節點,需要把自己的意思同步給其他人。回到家,父母可能會給她一些叮囑,這時父母又成了中心節點。
這個過程裡中心節點是不斷變化的,不是固定唯一的,這種端雲協同本質是群體思想不斷對齊的過程。就像我們看電視新聞節目,也可理解為一種端雲協同,給每個人同步信息讓大家信息對齊。
未來端雲協同不會再是現在的 " 端側能力有限所以需要雲端支持 " 這種概念。
量子位:未來 5 年 AI 發展的關鍵拐點将出現在哪些方面?
劉凡平:第一,我認為基礎算法和架構一定會有大量改變。可能很多人不願意相信,因為他們已經在 Transformer 上投入了大量資源。但我認為今明年基礎算法和架構一定會有大變化。
第二,端側 AI 一定會慢慢被人接受和理解,這是實現 AGI 的重要載體。對算力和數據的需求一定會下降。算力是個大坑,我不認為我們真的需要那麼多的算力。
新的基礎算法和端側 AI 會被越來越多人接受。最後,5~10 年後,群體智能也會慢慢普及,其價值會遠超現在靠堆算力產生的智能。
為什麼?因為群體智能會加速智能社會指數級增長,就像工業革命時期的生產力突破也可以理解成是一種群體智能的突破,新的科技和工具讓人與人、機器與機器的協作更高效了。
現在機器之間協作還非常弱,手機、電腦基本不存在真正的協作,只是互傳檔案或跨設備接電話。真正的協作是要一起解決問題,這需要群體智能來實現。
我認為未來五年社會會發生很大變化,可能需要普通人甚至專業人員付出諸多努力才能适應。現在也有類似的趨勢,當前還處于緩慢爬坡階段,以後會從爬坡變成直接上坡。
論文:https://arxiv.org/abs/2406.12230