今天小編分享的汽車經驗:抄不了特斯拉的作業,“蔚小理華”可咋整,歡迎閱讀。
出品丨虎嗅汽車組
作者丨肖漫
頭圖丨電影《天才槍手》
一次全行業的端到端切換,讓車企們的智駕競賽又回到同一起跑線上。
随着特斯拉基于端到端路線的 FSD v12.5 版本在北美地區已經取得了令人驚豔的效果,今年以來,國内的玩家從中領悟了智駕更新的 " 武功秘籍 "。(關于端到端的技術原理,虎嗅汽車團隊曾在《特斯拉,要跟華為開戰了》一文中有過詳細解析)
在模塊化堆規則時期,代碼 bug 修復能力越強,智駕能力表現越好,同時場内玩家通過開城和落地速度也随之分野。但問題在于,僅憑傳統的智駕規則無法從根本上解決現實世界的理解和推理問題,沒辦法解決許多復雜場景和 Corner case。
因此," 上限不高 " 的規則時代很快被大模型和端到端的到來取代,尤其是後者近乎 " 一日千裡 " 的迭代速度,更是讓一眾車企紛紛其規則轉投端到端技術路徑,這其中便包括蔚小理華等玩家。
端到端已經成為智駕行業下一代共識方案,雖然沒有人能明确端到端是否是自動駕駛的終局方案,但目前沒有比端到端更好的智駕技術方案。
基于此,本期暗信号旨在梳理目前場内頭部玩家是如何進行 " 端到端技術路線 " 布局,通過不同玩家的不同做法和落地進度,窺見車企智駕能力的演進以及接下來智駕行業的競争錨點。
理想:雙系統協同," 世界模型 " 外挂
理想其實是端到端路線的激進派。
根據理想汽車公開的技術架構,其端到端自動駕駛技術方案分為端到端模型、VLM 視覺語言模型、世界模型三部分。
基于快慢系統理論,理想汽車形成了自動駕駛算法架構的原型——
系統 1 由 One Model 端到端模型實現,通過接收傳感器輸入,并直接輸出行駛軌迹用于控制車輛;
系統 2 由 VLM 視覺語言模型實現,其接收傳感器輸入後,經過邏輯思考,輸出決策信息給到系統 1。
雙系統構成的自動駕駛能力将在雲端利用世界模型進行訓練和驗證。
端到端模型的輸入主要由攝像頭和激光雷達構成,多傳感器特征經過 CNN 主幹網絡的提取、融合,投影至 BEV 空間,疊加車輛狀态信息和導航信息,經過 Transformer 模型的編碼,與 BEV 特征共同解碼出動态障礙物、道路結構和通用障礙物,并規劃出行車軌迹。
目前,系統 1 的訓練數據庫已有 3 億多參數,其這一模型在實際駕駛中能夠具備更高的通用障礙物理解能力、超視距導航能力、道路結構理解能力等。
系統 2 的 VLM 視覺語言模型主要面向的是 5% 的特殊交通場景,如遇到分時段限行、潮汐車道等負責的交通規則理解,相當于副駕坐了個駕訓班的教練時刻監督駕駛行為,目前已有 22 億參數。
VLM 視覺語言模型的工作原理是,将 Prompt(提示詞)文本進行 Tokenizer(分詞器)編碼,并将前視相機的影像和導航地圖信息進行視覺信息編碼,再通過圖文對齊模塊進行模态對齊,最終統一進行自回歸推理,輸出對環境的理解、駕駛決策和駕駛軌迹,傳遞給系統 1 輔助控制車輛。
在實際應用場景中,如果系統二發現行駛過程中地面路面非常坑窪不平時候,其會給系統 1 發一個降速的提醒,并會像 ChatGPT 一樣告知駕駛員路面信息,最終輸出駕駛建議,類似 " 車輛将慢速行駛,以減少颠簸 "。
在兩大系統之外,理想利用重建 + 生成式的世界模型,為自動駕駛系統能力的學習和測試創造了虛拟環境,相當于通過生成真題題庫,讓系統 1、2 在虛拟世界進行考試,以驗證和提高系統能力。
小鵬汽車:" 三網融合 "
小鵬聲稱是國内首個量產上車的端到端大模型,但其并非采用 " 一體化 " 的 " 端到端智駕大模型 ",而是包括三個部分——神經網絡 Xnet+ 規控大模型 XPlanner+ 大語言模型 XBrain。
其中,神經網絡 XNet 實現的是 " 感知 " 層面的功能,相當于眼睛。
神經網絡 XNet 能将攝像頭采集到的信息,通過動态 XNet+ 靜态 XNet+2K 占用網絡,用超過 200 萬個網格重構世界,對現實世界中的可通行空間進行 3D 還原,包括動态障礙物(行人、車輛等)、靜态障礙物(水馬、路障等)、路面标識(箭頭、車道線等)等信息,進行純視覺感知識别。
據官網數據,其感知範圍面積可達 1.8 個足球場大小,同時識别 50+ 個目标物。
基于影像數據的感知輸入,規控大模型 XPlanner 負責 " 模塊化 " 智駕路線中的 " 決策規劃 " 和 " 控制執行 " 功能,類似于小腦。
相比 " 模塊化 " 智駕路線中的 " 決策規劃 " 模塊,規控大模型 XPlanner 的優勢在于不需要人類手寫規則代碼,完全依靠神經網絡模型,通過海量數據的不間斷訓練,優化駕駛策略,讓車輛有更類人的駕駛習慣和駕駛思維。
AI 大語言模型 XBrain 充當 " 大腦 " 的角色,相當于給了智能駕駛輔助系統超越感知的 " 認知能力 "。這其實與理想的系統二的功能有相似之處。
XBrain 能夠認識待轉區、潮汐車道、特殊車道、路牌文字等路上交通信息。例如,面對 " 前方道路施工,請換道 " 等環境信息,其能夠看懂并理解從而讓車輛執行對應的操作。
小鵬方面表示,端到端大模型上車後,每 2 天進行一次迭代,18 個月内小鵬智能駕駛能力将提高 30 倍。
華為:兩網協同,用安全網絡兜底
和小鵬一樣,華為的端到端技術架構同樣是分段式——感知部分采用 GOD 網絡(General Object Detection,通用障礙物識别),決策規劃采用 PDP 網絡(Prediction-Decision-Planning,預測決策規控)實現。
先看感知層面。在華為 ADS 2.0 時期,其采用的是 BEV+GOD+RCR 網絡,BEV 負責看到(BEV, Bird's Eye View,視覺為中心的鳥瞰圖),GOD 負責 " 看懂物 "(GOD, General Obstacle Detection Network,通用障礙物檢測網絡),RCR 負責看懂路(RCR,Road Cognition & Reasoning,道路拓撲推理網絡),由此實現感知層面的識别。
不過,這個階段依舊是規則堆疊的階段,如果傳感器識别的路況信息是曾經訓練過的特征信息,則能夠直接輸出給規控一個正确方案,但如果遇到一些未曾訓練好的場景,智駕系統就容易出錯或是不工作。
由此到了 ADS 3.0 階段,華為将 GOD 和 RCR 的算法納入到一個完整的 GOD 感知神經網絡之中,實現了從簡單的 " 識别障礙物 " 到深度的 " 理解駕駛場景 "。
另外,華為采用 PDP(預測決策規控)網絡實現預決策和規劃一張網,基于感知數據規劃行車路線。
有了 GOD+PDP 神經網絡模型之後,華為再利用雲端 AI 訓練平台進行大量的數據訓練,讓模型得以迭代更新。
華為同樣認為 " 讓 AI 去開車 " 這件事十分激進,目前的人工智能都會 AI 幻覺,有 30% 左右的錯誤率,于是其在端到端模型中加入了 " 本能網絡安全 " 進行兜底,提供誤踩油門防碰撞功能,路面自适應 AEB,在溼滑路面、雨雪路面可提前舒适制動等功能。
蔚來:引入 NWM 世界模型的端到端架構
關于端到端,蔚來沒有公開過這一方面的技術架構。從已有的公開消息來看,其對端到端的應用目前在主動安全功能層面。
今年 7 月,蔚來推送了基于端到端算法實現的 AEB 系統,通過讓模型學習真實環境下的優秀避險數據,覆蓋更多 " 不規則 " 的危險場景,目前已積累了超過 20 億公裡的事故數據和緊急避險數據。相較于标準 AEB,端到端架構的 AEB 在路口場景方面的緊急制動正确響應提升了 5.2 倍。
在蔚來智能駕駛研發副總裁任少卿看來,自動駕駛的大模型需要拆解成若幹個層級,第一步是模型化,第二步是端到端,去掉不同模塊間人為定義的接口,第三步是大模型。
2023 年,蔚來在高速 NOA 的規控裡加入 AI 神經網絡,雖然任少卿曾表示蔚來的端到端智駕方案是将感知模型與規控模型合并,實現信息無損傳遞,但在其看來,只是端到端給出規劃路徑還不足夠,智能駕駛走向大模型化需要具備認知和預測能力,即預判、推演其他交通參與者行為和交通環境的變化。
由此,蔚來在今年 NIO IN 上發布了蔚來世界模型 NWM —— NIO World Model。從蔚來智能駕駛技術架構 NADArch 2.0 來看,蔚來已在算法層更新為引入 NWM 世界模型的端到端架構。
據了解,NWM 是一個多元自回歸生成式的具身駕駛模型,可全量理解數據,具備長時序推演和決策能力,能在 100 毫秒内推演出 216 種可能發生的場景。另外,作為生成式模型,NWM 能基于 3 秒的駕駛視頻,生成 120 秒的想象視頻。
目前業内對于世界模型有着不同的應用思考,國内廠商多是把世界模型作為驗證的一環,例如上述提到理想的技術架構中,就引入了世界模型以重建 + 生產的方式生成模拟數據,作為獨立的架構存在。
雙方對于世界模型在智駕上應用出現分歧的核心因素在于,蔚來看到了世界模型對于智駕推演、預測的可能性和可行性,但理想認為,世界模型能力還不夠成熟,例如在生成上會出現幻覺等。
可以确定的是,将世界模型引入智駕領網域是車企們下一步探索的方向。
端到端沒有标準答案
透過頭部自研廠商的技術路徑可以看到,圍繞端到端這一概念,不同廠商設計出不同的技術路線和模型架構,無論是 One Model 的端到端還是分段式的 " 部分端到端 " 都有玩家押注。
由于技術仍處在探索階段,目前業内也沒有一個可供參考的實踐案例(特斯拉雖然在北美推送了 V12.5 版本,但其端到端網絡架構至今還未對外披露),在當前的發展階段,行業内對端到端的路徑還沒有形成共識。
雖然沒有标準答案,但這并不妨礙車企給出各自的解題思路。
當然,空談技術路線并無過多意義,技術的價值在于落地,對于消費者來說,端到端技術的落地,帶來最直觀的感受便是智駕能力的提升。
從部分早鳥用戶的使用感受以及媒體評測視頻來看,搭載端到端的車型能夠适應更多的城市路況,例如能夠在路邊開啟智駕功能、實現環島通行、在遇到障礙物時能夠借道繞行等。
與此同時,端到端帶來的 " 門到門 " 體驗也是更新的一部分。諸如小鵬、華為等玩家都已透露将推送能夠暢通 ETC、小區入口檔杆、工廠内部道路等場景的智駕版本,實現從家門口到辦公室門口的 " 門到門 "。
另外,人工接管次數也有了明顯的下降。在規則驅動時期,車輛開啟智能駕駛後,遇到規則以外的突發路況、或是稍微復雜的城市路況時都需要人工接管,但端到端大模型具備更高上限的理解能力和處理能力,能夠有效降低接管次數,更為絲滑地處理不同路況。
當然,端到端目前還只是起步階段,車企也在通過測試、迭代以優化其模型效果。可以預見的是,當下的汽車產業正迎來全新的智駕技術競賽。
相較于規則階段,端到端架構需要投入更多資源和資金。優質數據的篩選、清洗、标注、儲存,模型訓練所需的算力基礎設施,部署大模型能力等,無不需要投入。
特斯拉 CEO 馬斯克就曾強調過數據對端到端的重要性:" 用 100 萬個視頻 case 訓練,勉強夠用;200 萬個,稍好一些;300 萬個,就會感到 Wow(驚嘆);到了 1000 萬個,就變得難以置信了。"
何小鵬也曾提到," 自動駕駛有非常大的數據門檻,而且越往後越難成功,頭部效應會越來越明顯。"
數據量是一方面,對國内車企而言,算力訓練也是一大競争維度。不同于特斯拉能夠大肆采購英偉達的顯卡儲備算力,在國内,用于雲端訓練的芯片一卡難求,不少車企都在高價收購。
郎鹹朋就曾在交流中透露,去年年底花了大量資金買卡。據理想汽車初步估算,要從 L2+ 走向 L3,甚至是 L4 階段,起碼需要 30 EFLOPS 的算力儲備。
從算力層面來看,根據公開信息,部分廠商的訓練資源如下:
特斯拉 100 EFLOPS(預計 2024 年年末可達到)
華為 5 EFLOPS(2024 年 8 月)
蔚來 1.4 EFLOPS(2023 年 9 月)
理想 4.5 EFLOPS(2024 年 7 月)
小鵬 2.51 EFLOPS(2024 年 7 月)
資源投入背後其實也是關乎資金的戰役。小鵬汽車對外表示在 AI 訓練上已投入了 35 億費用,今後每年還将投入超過 7 億元用于算力訓練。郎鹹朋更是直言沒有 10 億美元利潤,未來玩不起自動駕駛。
誰家的數據更多,誰家的數據更有價值,誰家的算力更高,迭代效果更好等,都會影響端到端路徑的實際應用表現。這是一場關乎數據量、算力和投入的戰役,車企的智駕能力最終也将走向落地之時實現分野。
對用戶而言,在不久的将來,端到端技術帶來的產業變化和智駕功能更新也将有更為具象化的感知。