今天小編分享的科技經驗:把大模型裝進手機,分幾步?,歡迎閱讀。
圖片來源 @視覺中國
文 | 光錐智能,作者|姚悅,編輯|王一粟
大模型 " 跑 " 進手機,AI 的戰火已經從 " 雲端 " 燒至 " 移動終端 "。
" 進入 AI 時代,華為盤古大模型将會來助力鴻蒙生态。"8 月 4 日,華為常務董事、終端 BG CEO、智能汽車解決方案 BU CEO 餘承東介紹,通過盤古大模型的底層技術,Harmony OS 帶來了下一代智能終端作業系統。
在手機上使用大模型早已不是新鮮事,此前 ChatGPT、文心一言、妙鴨等 APP、小程式都是通過調用雲端算力,滿足手機終端 AI 應用的需求。
下一步,則是讓大模型直接運行在手機上。
從今年四、五月開始,美國科技三巨頭——高通、微軟、英偉達,最受矚目的 AI 新星 OpenAI,以及國内 AI" 頭部戰隊 " 的騰訊、百度等,都已經紛紛加速推進在移動終端的輕量化部署 AI 大模型。高通甚至宣布,正在逐漸轉型成一家智能邊緣計算(在移動終端等數據源頭提供計算服務)的公司。
巨頭的群力強推下,大模型從雲到端邁進的產業趨勢已經十分明确。
大模型為什麼要 " 跑 " 在手機上?
大模型的最大特點就是 " 大 ",動辄百億千億甚至萬億參數,且為了更好運行大模型,算力集群都已經更新到 " 萬卡 " 級别。如今,為什麼又非要把大模型 " 塞 " 進巴掌大的小手機?
大模型确實會給手機用戶帶來一些體驗上的提升。例如,華為終端智能助手小藝不僅可以根據語音提示推薦餐廳,還可以進行摘要總結、信息檢索、多語種翻譯等信息處理,數千字的英文長文,具備大模型能力的手機智能助手就可以生成摘要,還可以翻譯成中文。尤其後一點,在信息爆炸時代,對于提高學習工作效率還是很有價值的。
華為終端 BG AI 與智能全場景業務部總裁賈永利解釋,一方面,大語言模型具備泛化能力,能夠幫助手機智能助手提升理解能力。另一方面,大模型 Plug-in 的插件能力,可以在手機内部打通各應用之間的壁壘,借助工具拓展能力。
此外,ChatGPT 等 AIGC 應用一直以來都伴随着強烈的隐私安全争議,但如果完全在端側運行,就能夠完全避免這一問題。因為大模型在端側運行,數據也不會離開端側。而且,這樣響應的速度還會更快。
另一邊,大模型對于到手機等移動終端的需求也已經非常迫切。
大模型的洶湧之勢讓雲端越來越無法獨自承載算力的需求。高通高級副總裁 Alex Katouzian 近期就直言," 随着連接設備和數據流量加速增長,疊加數據中心成本攀升,(我們)不可能将所有内容都發送到雲端。"
不算數據傳輸要消耗網絡帶寬、存儲,以及硬體等大量資源,光是雲端算力現在已經讓相關廠商有些吃不消。ChatGPT 僅在推理階段,保守估計每個月算力成本在 1000 萬美元左右。
最大的問題還不是 " 貴 ",而是 " 缺 "。
此前,就連 OpenAI 創始人 Sam Altaman 都自曝 GPU 很缺,甚至直言不希望太多人用 ChatGPT。近期,也有業内人士推測,小型和大型雲提供商的大規模 H100 集群容量即将耗盡,H100 的需求趨勢至少會持續到 2024 年底。當前英偉達 H100 的產能還嚴重受制于供應鏈。
所以,雲端和終端形成配合,手機等終端閒置算力資源被利用起來,解決 " 集中式 " 算力與 " 分布式 " 需求的錯配,已經成為大模型發展 " 降本增效 " 的确定趨勢。更重要的是,相比數量有限的中心節點,眾多的移動終端堪稱觸及萬千場景的 " 毛細血管 ",也就決定了這一入口會是大模型加速應用滲透的關鍵。
如何把大模型 " 裝進口袋 "?
" 相比傳統的 PC 或者伺服器,移動終端最大的挑戰就是如何平衡好體驗和能耗,這是鴻蒙内核設計最重要的核心點之一。" 華為終端業務軟體部總裁龔體強調。
大模型需要大量的計算資源和存儲資源,尤其是基于現有的手機硬體配置,這就需要軟體系統做好協調,提升效率降低能耗。
現在手機為了提高性能,至少是 8 個芯片内核,就需要手機系統做協同,這個過程就會消耗大量算力。如果采用異構資源調度,就可以高效協調 CPU、GPU、NPU。龔體表示,這樣調度效率可以提升 60% 以上。
手機系統能夠進行運算,調度的最小部門叫做線程,傳統的作業系統中往往上萬線程同時運行,其中就會存在大量無效線程。針對這點,就可以通過更輕量的并發模型來處理并發操作,降低無效線程切換對算力的消耗。據龔體說,并發模型可以讓任務切換開銷節省 50%。
另外,在作業系統的任務調度方面,這也是影響流暢體驗的最基本要素,相比公平調度,動态優先級調度會很大程度降低能耗。動态優先級調度就類似于一個智能交通系統,可以根據道路狀況和交通流量,動态調整交通信号燈亮起狀态,如當某個方向的車流增加時,該方向的信号燈就提前變綠,就會減少擁堵和延遲。
不過,要想讓大模型部署到手機上,還能運轉起來,光是手機作業系統更新改進還遠遠不夠。
随着大模型預測越來越準确,網絡越來越深,神經網絡消耗的内存容量已成為核心問題。同時,還涉及内存帶寬的問題,網路運行時,内存、CPU 和電池都會飛速消耗,這絕對是現在的手機難以承受之重。
因此,在部署到手機之前,就必須對大模型進行壓縮,以降低對推理算力的需求。但是,一定要确保原有性能和精度基本不變。
量化就是一種常見且重要的壓縮操作,可以減少模型占用的内存空間,提高推理性能。本質上就是将浮點運算模型轉化為整數運算模型,因為整數運算比浮點運算精度更高,運算速度也更快。
當前,量化技術也已經在加速突破。伺服器上訓練的模型一般采用 32 位浮點運算(FP32),在手機端,高通已經将 FP32 模型量化壓縮到 INT4 模型,實現 64 内存和計算能效提升。高通的實現數據表明,在借助高通的量化感知訓練後,不少 AIGC 模型可以量化至 INT4 模型,與 INT8 相比,性能提升約 90%,能效提升大約 60%。
大模型壓縮技術,無疑是 AI 巨頭制勝移動終端戰場的關鍵因素。這也在一定程度上,解釋了英偉達在今年 2 月為什麼 " 悄悄 " 收購了掌握壓縮大模型技術的人工智能初創公司 OmniML。
大模型倒逼終端硬體更新
" 本年度我們将能夠支持參數達 100 億的生成式 AI 模型在手機上運行。" 高通產品管理高級副總裁兼 AI 負責人 Ziad Asghar 近期則對外表示,100 億 -150 億參數的模型可以覆蓋絕大多數 AIGC 用例。如果終端已經可以支持這一參數級别,運算可全部在終端上進行,手機會成為真正的個人助理。
但是,當前新一代旗艦版手機芯片也就可以承載運行 10 億參數級大模型,高通在今年 6 月計算機視覺學術頂會 CVPR 上,成功演示的跑在安卓系統上的大模型,也不過 15 億參數。
參數躍升幾乎十倍,奔赴移動終端的大模型已踩下 " 油門 ",那手機也就不得不加速更新才能應對。
手機硬體亟需在 AI 加速器和内存進行革新。
首先,更大參數的大模型,需要更大的内存和存儲空間來存儲模型參數和中間結果。這就要求移動終端内存芯片容量,以及内存接口帶寬都進行更新。
其次,更大的參數勢必需要更強大的計算和推理能力,處理輸入數據和輸出結果。
雖然,目前手機芯片上的 AI 加速器(例如各種 NPU IP)幾乎已經是标配,但設計基本上是針對上一代卷積神經網絡設計,并不完全針對大模型。
為了适配大模型,AI 加速器必須能有更大的内存訪問帶寬,并減少内存訪問延遲。這就需要 AI 加速器的接口上做出一些改變(例如分配更多的 pin 給内存接口),同時也需要片上數據互聯做出相應的改變,來滿足 AI 加速器訪存的需求。
高通能喊出 " 年内 100 億參數跑手機 " 的重要原因之一,就是其手握搭載了高通史上最快速、最先進的 AI 引擎的第二代骁龍 8 處理器,相比第一代骁龍 8 處理器,AI 性能提升了 4.35 倍,能效提升 60%。
當然,超大規模參數大模型的訓練和推理,即便在雲端也亟待突破五堵牆:内存牆 + 算力牆 + 通信牆 + 調優牆 + 部署牆,手機更得一層一層去突破。
不過,從 " 智能 " 到 " 人工智能 ",對于手機來說,機遇大于挑戰。
" 創新周期對電子消費品的影響更為重要,甚至可以帶領一個產業走出經濟周期的影響。" 榮耀終端 CEO 趙明判斷,當前智能手機行業就處在一個 AI、5G+ 開啟的新一輪創新周期中。