今天小編分享的互聯網經驗:讓AI像人一樣開車,端到端模型如何解碼自動駕駛?,歡迎閲讀。
出品|虎嗅智庫
編輯|黃思語
題圖|視覺中國
當前,端到端模型在自動駕駛領網域嶄露頭角,成為引領技術的重要力量。那麼,端到端自動駕駛模式有何優勢?如何訓練數據、優化駕駛經驗?在復雜的交通環境中,模型又該如何智能且安全地作出實時決策,确保車輛行駛的高效和安全?與此同時,為了賦予用户和監管機構對系統決策的清晰理解,構建對自動駕駛技術的堅實信任,模型的可解釋性也成為關鍵要解決的問題之一。
圍繞以上問題,虎嗅智庫撰寫并發布了《端到端自動駕駛模型方案及發展趨勢》。深入剖析端到端的算法演進與產品形态,通過學術界和工業界兩個層面的實踐案例,揭示端到端模型在自動駕駛領網域的探索與創新,為車企及自動駕駛相關從業人員提供專業意見。
同時 12 月 12 日晚 7 點,虎嗅智庫将圍繞自動駕駛的研發路線開展線上研讨會,特邀北汽研究院、智加科技、環形科技的專家一起在線上暢聊自動駕駛。
以下是《端到端自動駕駛模型方案及發展趨勢》報告的主要内容。
端到端模型的算法演進和產品形态
當前汽車行業通用分類,将自動駕駛系統分為傳統模塊化和端到端兩大類。傳統方案以感知 - 預測 - 規劃 - 控制為核心,如百度阿波羅,适應硬體水平,符合量產需求。端到端方案融合各模塊成一個統一架構,通過傳感器輸入直接完成從原始數據到軌迹或控制信号的映射,符合人類駕駛原理。
虎嗅智庫在通用分類基礎上,綜合考慮對規則算法的依賴程度,按照模型最後呈現的拟人化程度,将自動駕駛模型分為:規則算法驅動的模塊化小模型 ( a 模型 ) 、半拟人化部分算法規則驅動的模型 ( b 模型 ) 、拟人化無規則端到端 Al 大模型 ( c 模 型 ) 。
a 模型采用傳統模塊化,但系統復雜,對硬體要求高;b 模型在此基礎上實現感知 - 決策一體化,提升信息表達;C 模型是完全拟人化的無規則端到端 Al 大模型,是自動駕駛算法模型的理想狀态,以原始傳感器數據為輸入,并產生規劃和 / 或低級控制動作作為輸出, 理論上應具備可解釋性,但目前尚無落地成果。
端到端自動駕駛技術在算法演進和產品形态上經歷了三個關鍵階段。
起初,從基于神經網絡的端到端控制模型,到采用監督學習的卷積神經網絡端到端模型,再到策略預訓練模型,不斷加入深度學習和拟人化算法範式,解決更多自動駕駛問題。
學術界的研究始于 1988 年的 ALVINN,随後發展出端到端 CNN 原型系統。
到 2021 年,這一技術逐漸體現在產品形态上,通過多傳感器配置實現多模态感知,利用高級架構捕捉全局上下文和代表性特征,通過 NEAT、NMP 和 BDD-X 等方法提高可解釋性和安全性,覆蓋了記憶泊車、城市 NOA、高速 NOA 等不同自動駕駛功能,标志着端到端自動駕駛技術進入了探索完整算法解決方案的階段。
探索實踐案例
1、 學術界以上海人工智能實驗室為代表,關于 UniAD 的探索。
UniAD 是上海人工智能實驗室、武漢大學和商湯科技合作研發的自動駕駛通用大模型,以路徑規劃為導向,實現感知決策一體化。
模型将檢測、跟蹤、建圖、軌迹預測、占據栅格預測整合到基于 Transformer 的端到端網絡框架下,通過通用 token 融合環視圖片映射得到 BEV 特征,實現目标跟蹤、在線建圖、目标軌迹預測和障礙物預測。
聯合優化通過連續時序視頻流輸入,映射到 BEV 空間,通過 transformer、mapformer、motionformer 和 Occformer 實現特征融合和多步未來占用預測,最終通過 Planner 進行端到端的多模塊聯合優化和可微分訓練。
UniAD 通過先訓練感知能力,再訓練整體模型,實現了自動駕駛領網域的創新突破。
2、工業界以特斯拉為代表,關于 FSD Beta v12 探索。
特斯拉 FSD Beta v12 的自動駕駛解決方案采用了感知決策一體化模型。
将 " 感知 " 和 " 決策 " 兩個模塊融合到一個模型中,通過純視覺感知方案,利用影子模式實時收集數據并訓練模型,實現僅依靠車載攝像頭和神經網絡識别道路和交通情況,并作出相應決策。
測試結果表明,FSD Beta V12 能夠應對絕大多數駕駛場景,但還需要改進在測試中存在的失效場景,如未準确識别紅路燈等問題。
關于探索案例更多的詳細介紹可點擊《端到端自動駕駛模型方案及發展趨勢》獲取全文。
數據為主、規則驅動為輔将成未來趨勢
端到端模型在自動駕駛方案中具有明顯優勢。它将感知、預測和規劃整合到單一模型中,簡化了方案結構,提高了計算效率。模型由神經網絡構建,以數據和算力為主導,顯著提升了模型的訓練效率和性能上限。相比傳統模型依賴規則驅動,端到端模型更容易實現規模化,實現性能突破。
未來,在產業應用中面臨兩大挑戰。首先,現有感知決策一體化模型缺乏可解釋性。無法保障極端情況下模型輸出的安全性,并且具有不可解釋性,這增加了錯誤風險和調試難度。
其次,缺少大量真實駕駛數據用于模型訓練阻礙了量產落地。傳統模塊化模型中獲取訓練數據相對容易,而端到端模型需要大量連續時序的駕駛行為視頻進行标注,采集、标注及閉環驗證困難,使得量產落地進程放緩。
以大數據驅動為主、規則驅動為輔的模型架構将成為主流,同時借助語言模型範式,通過 tokenization 實現自動駕駛運行邏輯的可解釋性。此外,面向通用大模型的研發也将成為重要方向,以支持泛場景、泛對象、跨模态的自動駕駛應用。通過對深度學習、強化學習、類腦算法等技術的不斷探索,推動端到端模型在產業界的廣泛應用和持續創新。
關于未來趨勢研判更為詳盡的闡述可點擊《端到端自動駕駛模型方案及發展趨勢》獲取。
結語:
在自動駕駛領網域,端到端模型展現出讓 AI 像人一樣的解碼能力,通過以數據為主、規則驅動為輔的發展趨勢,為行業創新和發展提供了深刻的思考。正如 AI 駕駛人在不斷學習和進化中,端到端模型也在不斷地解碼着自動駕駛的未來。
現登錄虎嗅智庫官網 ,注冊限時體驗會員賬号,不錯過任何最新活動信息。
關于虎嗅智庫:
虎嗅智庫致力于推動產業數字化以及以 " 雙碳 " 轉型為代表的可持續發展,為參與這個進程的中國企業高管、政府相關決策服務。我們主要的服務手段主要為:研究型内容(報告、分析文章、調研評選)、數據庫、線上線下活動與社群、定制型項目等。
我們提供的核心價值:
及時與優質的洞察,了解技術、了解行業、了解同行與對手;
為決策者技術與產品戰略決策、產業規劃、解決方案選型提供重要參考;
幫助市場全面了解前沿科技及所影響產業的發展狀況,還有未來趨勢。