今天小編分享的汽車經驗:大模型會讓汽車成為比手機更有想象力的智能終端?,歡迎閲讀。
文|三少爺
生成式 AI 和 GPT 技術在過去的一年中高歌猛進,大有掀起第四次工業革命的勢頭。各種應用場景都在被生成式 AI 大語言模型重新賦能,工作流被重塑,產品形态被變革。
借助大語言模型(以下以大模型指代),一直呈現擠牙膏式創新的 PC 化身新物種 AI PC,煥發了生命的第二春;智能手機開始向 AI 手機轉型,為确保轉型順利,蘋果甚至放棄了耕耘 10 年、投入百億美金的智能電動汽車業務。在這場波瀾壯闊的智能大模型席卷一切的浪潮中,自然少不了智能電動汽車的身影。
從時間順序來看,吉利旗下的極越 01 是國内首款搭載大模型技術的汽車之一,據悉,極越語音助手 SIMO 接入了百度的文心一言。
死磕智能化技術的小鵬汽車也是率先落地大模型的車企之一,去年 10 月 24 日的小鵬科技日上,小鵬推出新一代 XOS 系統,将語音助手小 P 接入自研的靈犀大模型 XGPT。
12 月份,理想汽車發布 OTA 5.0,Mind GPT 正式上車,難能可貴的是,理想汽車還系統性地總結并展示了車載大模型的四大應用場景 - 知識百科、用車助手、出行助手、娛樂助手。
12 月份的問界 M9 發布會上,車載智慧助手小藝全面接入盤古大模型,華為研發多年的盤古大模型自此搬上鴻蒙車機。
今年 2 月份,蔚來汽車 2024 款車型上市,同時宣布了自研大模型 NOMI GPT 即将上線的消息。
大模型的風口不容錯過,所以,我們可以保持一個合理的期待,在接下來的一段時間裏,各家車企還會陸陸續續傳來大模型上車的消息。
不一樣的自研方案
從極越語音助手 SIMO、小鵬汽車語音助手小 P、華為語音助手小藝、理想汽車 Mind GPT 四大助手的名稱可以看出,小鵬汽車的 XGPT、理想汽車的 Mind GPT 和蔚來汽車的 NOMI GPT、百度的文心一言、華為的盤古大模型都可以歸類成 GPT 助手。
在微軟 2023 年的 Build 大會上,專家介紹過 GPT 助手的訓練工作流:先用數千張 GPU 對 TB 級别的海量互聯網數據進行無監督訓練,訓練出能夠理解和生成自然語言且具備強大基礎能力的基座大模型,再用數百張或者數十張 GPU 對 GB 級别的各種高質量數據進行微調式訓練,訓練出面向特定任務進行調整和優化的微調大模型。
圖片來源:微軟 Build 大會
從 GPT 助手的訓練工作流可以看出,雖然均标榜自研,但蔚小理 GPT 的自研分量和華為 / 百度存在一定的差距。因為,蔚小理的基座大模型大概率來自業界開源,而華為和百度的基座大模型出自這兩家自力更生的全棧自研。
其實,自去年下半年 Meta(扎克伯格的 Facebook)開源了性能表現優異的 Llama 模型之後,采取開源基座大模型進行微調訓練,開發出面向垂直領網域和行業專屬的大模型,已經成為了業界的主流開發方式。
原因無他,基座大模型的開發已經成為了只有具備大量人才儲備和訓練算力的科技巨頭才能參與的遊戲。Meta 開源的 Llama 70B(700 億個參數)采用了 6000 個 GPU 進行訓練,在一次訪談中,馬斯克表示 xAI(新推特)自研的大模型 Grok 采用了 8000 張英偉達 A100 進行訓練。且不説人才儲備,單單對算力進行統計,一顆英偉達 A100 的算力為 312TFLOPS,8000 張 A100 對應的訓練算力就在 2.5E 左右。
有關數據顯示,蔚小理三家的訓練算力規模分别為 1.4E、600P(數據來自 2022 年的新聞公告)和 1.2E,有限的算力還要用來支撐高階智能駕駛算法開發,應該不會拿來進行對基座大模型的訓練。
圖片來源:Andrej Karpathy
相比之下,在國内的科技巨頭裏,百度是最早喊出 All in AI 的公司之一,在以大模型賦能千行百業的科技公司裏,華為同樣是國内最早的踐行者之一,所以,早在幾年前,兩家就訓練出了千億參數規模的大模型,在 OpenAI 驗證了 Scaling Law 之後,兩家摸着 OpenAI 過河,迅速将文心一言和盤古大模型的參數規模推高到了萬億級别。
截止到 2024 年 3 月,業界性能最強的幾個開源大模型有谷歌的 Gemma 7B、Meta 的 Llama 7B、Llama 13B、Mistral 的 Mistral 7B,參數量都在幾百億到上千億之間,從參數規模的角度,蔚小理三家的 GPT 和華為與百度還存在一定的差距。
不過,決定大模型性能的不只是參數規模,模型的實際性能表現在很大程度上依賴于數據,加大訓練數據量和訓練時間,參數規模較小的大模型未必遜色于參數規模較大的大模型。
理想汽車應該是早早就洞悉了這個規律的車企之一,在去年的家庭科技日上,理想高管宣布 Mind GPT 大模型的訓練語料為 1.3 萬億個 Token,到了今年 3 月份的發布會上,李想宣布的 Mind GPT 訓練數據規模就已經提高到了 3 萬億個 Token。
圖片來源:理想汽車
下一個戰場—
多模态感知端側大模型
由于參數規模和功耗的原因,所有重量級的大模型必然部署在雲端,但是,在本地部署參數較小的輕量級大模型的需求同樣相當迫切。因為,在智能電動汽車這麼一個移動智能空間裏,多模态互動的需求正在日益上升,而基于小模型開發的人車互動方式在理解和感知能力上存在明顯的不足。
在 2023 年的華為開發者大會上, 華為的技術專家介紹了大模型帶來的兩個關鍵能力的根本性提升 - 超強的理解能力和超強的生成能力。
人車互動體驗的關鍵恰恰取決于理解和生成能力,依靠多模态的理解和生成,可以處理和生成多種類型數據的大模型,可以提供更豐富、更真實的體驗和應用,實現更接近于人類的自然感知和互動方式。
OpenAI 首席運營官 Brad Lightcap 也曾經表達過類似的觀點:" 為了更好地模仿人類的感知和互動方式,AI 模型需要能夠處理和生成多種類型的數據。整合多種模态的大模型可以提供更豐富和更真實的體驗和應用,以及更接近于人類的自然感知和互動方式。"
圖片來源:華為
大模型時代來了,有必要通過大模型技術重新部署多模态互動。不過,出于實時性的要求以及對用户隐私數據的保護,用于多模态感知的大模型必須部署在端側,換言之,端側部署的多模态感知大模型将成為已經内卷到冒火星子的智能電動車企下一階段的重量級戰場。
但是,由于多模态感知的復雜性以及功耗、推理速度、内存資源、芯片算力的限制,在端側部署大模型絕非易事。
第一步,需要面向車端多模态互動的場景和需求,在具備多模态感知能力的雲端大模型的基礎上進行微調訓練,比如開源方案中的 Llama 便具備多模态能力,作為模型家族的盤古大模型或文心一言,也可以通過訓練不同模态的數據微調出滿足人車互動應用場景的多模态感知大模型。
第二步,需要根據車端的算力,通過量化、剪枝和蒸餾的方式,将參數量在幾百億級别雲端大模型壓縮成參數量在幾十億級别的輕量級大模型。
真正的挑戰在第二步。決定芯片能否運行大模型的因素有很多,包括模型的大小、終端的運算能力、内存大小和内存帶寬等,但主要因素是計算芯片的 NPU 算力。
目前算力最強的座艙芯片是高通骁龍 8295,旗艦版 NPU 算力為 30TOPS,運行幾十億參數的輕量級大模型會很吃力,高性能版采用雙 NPU,算力可達 60TOPS,初步具備運行幾十億參數級别的輕量級大模型的能力。
不過,在車端運行大模型進行多模态感知,還有一個非常重要的指标:實時性或反應速度,這會進一步提高對芯片算力的需求。這種硬性限制,使得目前國内部署端側多模态感知大模型的車企寥寥無幾,透露過相關消息的只有蔚來汽車。
在發布 2024 款車型時,蔚來汽車宣布,基于中央計算平台的超強算力和跨網域共享能力,即将上線的 NOMI GPT 将部署 " 全球首個汽車端側多模态感知大模型 "。
下一個部署端側多模态感知大模型的可能是華為系車企和理想汽車,在 2023 年的華為開發者大會上,華為的技術專家就展示過在眼手互動、手勢互動上的造詣和實力。
經常被調侃以 " 冰箱、彩色電視機、大沙發 " 打天下的理想汽車是首批提出 " 智能空間 " 概念的車企之一,它在視覺感知,語音感知、和多模态上也有很深的造詣。理想 MEGA 和 2024 款 L 系車型 Ultra 版本采用算力高達 60TOPS 的高性能版高通骁龍 8295,并搭載兩組 IR 傳感器和六組雙麥陣列式麥克風,也透露了理想汽車将在多模态感知上發力的蛛絲馬迹。
寫在最後
由于可解釋性差、容易出現幻覺、可靠性差、實時性差等原因,大模型技術一時半會兒還很難用到自動駕駛上面,但是,容錯能力強的智能座艙正在被大模型重塑和改變。
借助雲端大模型,語音助手的體驗将發生質的改變,随着原生支持 Transformer 架構硬體的出現,以及芯片算力的繼續提高,端側多模态感知也将逐步落地,進一步改善人車互動體驗。
由于散熱能力更強,可以部署更加強大的硬體,感知傳感器和互動接口更豐富,能夠解鎖更多場景體驗,智能汽車沒準會成為比智能手機更早完成大模型改造且具備豐富想象力的智能終端!
>