今天小編分享的汽車經驗:小鵬汽車:端到端智駕真正競賽在雲端,歡迎閱讀。
本文摘自《雲栖戰略參考》,這本刊物由阿裡雲與钛媒體聯合策劃。目的是為了把各個行業先行者的技術探索、業務實踐呈現出來,與思考同樣問題的 " 數字先行者 " 共同探讨、碰撞,希望這些内容能讓你有所啟發。
智能駕駛近兩年的提速,端到端技術無疑是關鍵動因。
2024 年 10 月 24 日,小鵬汽車宣布 AI 天玑 5.4.0 正式開啟公測,并首發搭載在小鵬 P7+ 上。新版本為小鵬汽車帶來了最強 AI 智能駕駛功能,根據數據統計,已經享受到公測版的 P7+ 用戶,在用戶滲透率和裡程滲透率上均取得了顯著提升。早些時候,小鵬汽車已經完成了國内首個端到端智能駕駛大模型量產上車。
這一系列的成績,源于小鵬汽車多年來全力投入 AI 的決心。早在 2022 年,小鵬汽車就率先完成城市導航輔助駕駛 ( NGP ) 的落地。當時,小鵬汽車自動駕駛團隊就在思考,是否需要更進一步提升 AI 泛化能力。同年 4 月,小鵬汽車開始嘗試對傳統智能駕駛中的感知、融合、預測、規劃、控制、定位等技術模塊進行融合。這也成為小鵬汽車探索端到端大模型的雛形。
小鵬汽車董事長何小鵬在談及端到端智能駕駛大模型時強調," 往後 10 年、20 年,我不知道今天的大模型邏輯是否會适用,但它一定會比之前的算法或規則模型都要強。"
智能駕駛新一輪競争正圍繞算法、算力、數據三要素展開,出現任何一塊短板,都将引發木桶效應。這場競賽中,小鵬汽車和阿裡雲一直在并肩前行。
AI 席卷智能駕駛,小鵬汽車笃定端到端技術路線
端到端 ( End-to-End ) ,起初并非源于智能駕駛,而是多用于深度學習領網域的一套方法,并且在語音識别、自然語言處理等領網域已有比較多的學術研究。其設計原理是神經網絡在學習中不進行分模塊或分階段訓練,直接從輸入數據到輸出結果,減少人為幹預和預處理的需求,類似于 encoder-decoder 架構。
端到端技術能夠避免傳統人工特征提取中的信息損失,提高模型的效率和準确性,簡化訓練流水線。
在智能駕駛領網域,端到端智能駕駛方案利用統一的深度學習神經網絡,将感知、規劃與控制等多個功能模塊整合為一體。将攝像頭、傳感器實時采集的原始數據作為輸入,直接輸出為轉向、加速、制動等駕駛指令,這種一體化架構實現了信息無縫傳輸并降低延遲,讓汽車反應更加順滑。特斯拉在北美率先推出的 FSD V12 版本,就采用了端到端技術。同樣,小鵬汽車在國内快速推進了端到端智能駕駛。
小鵬汽車選擇的是 " 雲端大模型 " 路線,通過構建雲端大模型,然後将雲端大模型蒸餾到車端,在車端進行模型部署。小鵬雲端大模型的參數量是車端的 80 倍,雲端強化訓練後,車端大模型的上限大幅提高。
據小鵬汽車自動駕駛產品高級總監袁婷婷介紹,端到端往往包含非常復雜的深度學習網絡。但大模型的黑盒問題導致難以解釋其決策過程和推理邏輯,尤其是表現出不良效果後,不可解釋性還增加了解決和驗證的難度,更無法保證其安全可靠性。
基于此,根據端到端的思路,小鵬汽車随即推出了 " 三網合一 " 架構,其中 XNet 類似于人的眼睛,對現實世界中的可通行空間進行 3D 還原;XPlanner 類似于人的肌肉和小腦直覺,通過海量數據的不間斷訓練,優化駕駛策略;XBrain 類似于人的大腦,會進行更深入的理解和意圖推理,包括時序、環境、路牌文字等。三網以全局性視角聯合執行駕駛任務,可以對模型進行聯合預訓練和标注,同時三網又各有側重,出現問題可快速診斷定位,了解模型和系統的缺陷問題。更重要的是,在駕駛安全性上,三網使得系統應對一些特殊、緊急場景的上限變得更高的同時,也需要一定的安全措施保證下限。
在端到端技術的加持下,小鵬汽車整體邁向了以輕地圖、輕雷達、重算力為核心的智能駕駛方案。針對復雜路況,能夠做到點到點的輔助駕駛能力,包括自動通過高速 ETC 閘機、紅綠燈識别、擁堵路段跟車以及主動變道超車等等。尤其在體驗和流暢性上,用戶基本感覺不到任何斷點。
小鵬汽車自動駕駛產品高級總監袁婷婷指出,行業内一般用記憶泊車 VPA ( Valet Parking Assist ) +NOA ( Navigate on Autopilot ) 城市輔助駕駛的方式來實現車位到車位,這也是小鵬在 2021 年采用的方案。但使用拼接方案,就會存在卡頓,比如汽車行駛到停車場與公開道路的交匯點時,會因切換軟體導致卡殼現象。
目前小鵬汽車已經通過端到端智能駕駛大模型對其能力進行了全面更新,在行業内首個用一套智能駕駛軟體以及基于 " 端到端大模型 " 實現 " 車位到車位 "。在最新的測試場景中,車位到車位的整條鏈路——從園區内、地庫内,到過閘機,再到公開道路的銜接,都能以更加流暢的體驗方式實現。此外,路線規劃也能夠無感生成,讓駕駛變得更加便捷高效。
" 絲滑、笃定、直覺性 " 這些用于形容老司機開車一樣的駕駛體驗,正在小鵬汽車端到端智能駕駛系統上呈現。
可以看到,端到端的出現,突破了原先依靠規則驅動的智能駕駛研發體系,至少在當前階段,端到端已是自動駕駛競争的關鍵技術路徑之一。
真正适配智能駕駛的算力底座
多年來在端到端智能駕駛大模型上的投入,模型參數量的急劇擴張,使得小鵬汽車智能駕駛系統和功能迭代速度持續加快。
由于當前車端芯片算力的限制,即便采用兩片 Orin 芯片,能支持的車端模型參數量依然有限。而雲端大模型可以全面吸納智能駕駛數據,不遺漏重點信息細節。通過大量數據訓練,盡可能窮盡智能駕駛中的長尾問題,以覆蓋更多駕駛場景,使 XNGP 實現 L3 級的智能駕駛體驗。
訓練一個雲端大模型,對大規模高性能算力以及數據存儲和處理提出了非常高的要求。其一,提高并行訓練性能和利用率的要求,這對雲基礎設施包括網絡互聯、帶寬,以及系統軟體優化等帶來了挑戰;其二,對模型訓練持久穩定性的要求,比如模型訓練中斷,訓練出現問題後能否快速拉起任務,縮短故障時間;其三,大規模多模态數據的存儲與處理能力,實現并行訓練的高性能、高吞吐,滿足模型訓練不斷提升的數據量增長需求;其四,海量數據的存儲成本要求,在滿足數據處理性能要求的前提下,通過支持數據分層存儲,實現最優的成本。
實現這些要求并非易事。大模型的預訓練需要集群化,構建萬卡甚至更大規模的集群,且整個集群需要組成一個龐大的 " 整體 "。形象來說,就像每一排都有兩個人且兩人之間把腿綁在一起,共同前進。只有每張 GPU 卡、每台機器都以相同的 " 步伐 " 前進,才能提升整體的模型訓練效率。
早在 2022 年,小鵬汽車就與阿裡雲在烏蘭察布建成了當時中國最大的自動駕駛智算中心 " 扶搖 ",用于自動駕駛模型訓練。" 扶搖 " 依托于阿裡雲靈駿智算集群構建,該集群是阿裡雲面向 AI 時代打造的智能算力基礎設施,支撐了小鵬汽車端到端智能駕駛大模型的快速迭代。
随着模型規模擴大到百億甚至千億量級,一次訓練任務需要更多 GPU 協同,規模會放大很多問題。
首先碰到的問題就是擴展集群規模是否能帶來訓練任務相同倍數的線性加速。為了将 " 相同步伐 " 效率提升到極致,阿裡雲更新到 HPN 7.0 網絡架構,把網絡能力推向一個全新的高度。通過 3.2Tbps 高性能 RDMA 網絡連接,讓伺服器之間的通訊更順暢;自研的擁塞控制算法解決了路由的復雜度和數據交換的衝突;同時,訓練過程實現自動網絡拓撲感知調度,為大模型訓練自動調度最佳網絡拓撲的計算節點,從而減少通信開銷,進一步提升訓練效率。
此外,計算和存儲流量分離大大減少存儲 IO 和計算通信的互相幹擾,進而提升了整體 GPU 集群的計算效率。小鵬汽車在阿裡雲上的千卡級訓練任務線性加速比可以達到 90% 以上。
由于訓練任務的特殊性,部件故障會導致整體訓練停滞,如何盡可能早的預測故障,以及發生故障後系統能快速拉起恢復,是令小鵬汽車自動駕駛技術團隊頭疼的第二個問題。
小鵬汽車自動駕駛中心大數據管理部負責人 Jay 提到," 訓練是一個持續幾十天的過程,當我們的訓練規模越大,就有可能遇到越多的意外情況,訓練過程中,穩定性非常重要。"
針對這些問題,阿裡雲技術團隊采取了一系列措施以提高系統的穩定性和訓練效率。阿裡雲提供千卡集群健康檢測能力,可實現對計算集群包括單節點算力檢查,單節點内 GPU 互聯檢查,多節點互聯檢查等,實現在訓練前、訓練中和故障後及時發現問題節點,并通過 AI 助手設定運維策略,保障集群整體資源穩定可用。同時,配置節點分鍾級自動自愈能力以及秒級的訓練進度保存機制,實現故障後任務仍可以自動恢復,并以無損的訓練進度實現續訓,從而節約訓練時間、降低訓練成本。
2024 年,小鵬汽車也開始使用阿裡雲容器計算服務 ACS,該服務為小鵬提供基礎設施全托管算力服務,無需管理和維護底層伺服器,即使遇到伺服器發生故障,應用也能迅速切換到其他伺服器,确保模型訓練的連續運行。
智能駕駛模型的演進迭代需要海量數據,過程中的數據采集、挖掘、處理,又同樣對存儲、數據處理能力提出了更高要求。
截至 2024 年 9 月小鵬汽車公開數據顯示,小鵬汽車使用了折算裡程超 10 億 + 公裡的視頻訓練,累計 646 萬公裡、1972 個城市和區縣的實車測試,以及累計 2.16 億公裡、2.2 萬核心模拟場景、5.8 萬專業模拟場景的仿真測試。
阿裡雲把内存、本地磁盤、CPFS 高性能并行檔案存儲以及 OSS 對象存儲等形成一個完整的階梯型存儲架構,進行統一的管理,把熱數據放在延遲最低的存儲上面,并實現冷熱數據的自動流轉,不斷提升存儲的使用效率,降低存儲成本。
數據的積累屬于基礎,更重要的是讓數據有效轉起來。小鵬汽車通過自研工具鏈結合阿裡雲大數據平台、數據庫服務等實現全棧數據閉環,對數據的清洗處理以及高效的挖掘,數據的高效流轉,端到端大模型的大規模分布式訓練,實現測試階段實車測試與仿真測試并重,加快迭代節奏,推動智能駕駛技術的快速發展。
小鵬汽車自動駕駛中心大數據管理部負責人 Jay 表示 : " 明年小鵬整體的數據量将迎來大幅度提高,更需要雲基礎設施做很好的承載。"
當智能駕駛的熱情被點燃
何小鵬曾說過:" 小鵬從創始之初就一直致力于做中國的自動駕駛第一。"
通過 "All in AI",小鵬汽車不僅率先實現端到端智能駕駛大模型量產上車,根據 " 端到端四部曲 " 規劃,在未來兩年,小鵬還将基于 L2 的硬體和成本實現 L3+ 的用戶體驗,并最終通往 L4 無人駕駛。
小鵬汽車自動駕駛負責人李力耘曾在接受采訪時表示,端到端時代,好似從冷兵器時代來到熱兵器時代。過去的輔助駕駛時代是 " 冷兵器時代 ",只要湊齊了武林高手就可以打。但熱兵器時代需要更大的算力、更多的數據、讓算力和數據流轉起來的機制和工程能力。擁有強大算力的阿裡雲,也将持續支撐小鵬汽車端到端大模型的快速迭代。
本文摘自《雲栖戰略參考》總第 16 期
掃碼限時申領紙質版
↓↓