今天小編分享的科技經驗:别人剛上「端到端」,理想智駕卻又迭代了,歡迎閱讀。
自動駕駛技術發展了這麼多年,最大的變化是什麼?
在寫下這篇文章的前一天,兩位汽車行業朋友來到愛範兒,和我們坐下聊了聊。聊到的内容有很多,從產品推廣到行業趣聞,而自動駕駛作為行業熱議的一個分支,自然也成為了我們讨論的焦點之一。
回顧自動駕駛這些年來的發展,變化其實有不少,包括傳感器的迭代、車端算力的提升、從高精地圖過渡到占用網絡等。但在這些變化中,最引人注目的突破當屬大模型的加入。
大模型,讓自動駕駛技術的應用,變得觸手可及。
10 月 23 日,理想汽車全新一代雙系統智能駕駛解決方案「端到端 +VLM」正式開始全量推送,理想汽車的智能駕駛,從此步入了 AI 大模型的時代。
像人一樣思考,像人一樣駕駛,如今的理想汽車,正在實現這一願景。
好不容易搞懂了端到端,VLM 又是什麼?
關于端到端到底是什麼?是從哪個「端」到哪個「端」?别說普通消費者了,就連不少媒體從業者都沒有搞清楚。
不少廠商都曾對此做出過解釋,其中解釋得最通俗易懂的,還是理想汽車:
一端,是傳感器:攝像頭、激光雷達等傳感器,它們就像是人的眼睛,負責輸入環境信息。此外還有特别設計的輸入信息,如車輛的位置、位姿和導航等信息。
另一端,是行駛軌迹:接收了來自傳感器的信息後,系統會輸出「動态障礙物」、「道路結構」、「占用網絡 Occ」和「規劃軌迹」。前三個感知任務主要通過螢幕呈現給用戶,第四個「行駛軌迹」,就是我們最終需要從傳感器映射出來的東西。
▲理想智駕端到端架構圖
不難發現,從傳感器接收信息,到系統輸出行駛軌迹這個過程,和我們自己開車非常類似——我們的眼睛負責接收信息,雙手會自然而然地帶動方向盤,把車輛帶到正确的軌迹上。
是的,依靠端到端模型,理想新一代智駕系統做到了像人一樣駕駛。
一直以來,無論是主機廠還是自動駕駛企業,都在不斷宣傳自家的智駕系統有多麼類人,多麼像「老司機」。然而,一些「老司機」們習以為常的場景,在很長一段時間裡,都是難以解決的行業難題。
最典型的就是環島這一場景,因為場景復雜、感知受限,因此在今年 7 月之前,還沒有幾家車企能夠實現「老司機」般的進出環島。
理想智駕技術研發負責人賈鵬曾對愛範兒和董車會表示,對于感知和規控分離的分段式智駕方案來說,在環島場景裡,感知模型需要為規控模型做「各種各樣的假設。」
做個掉頭,還得把掉頭線拟合出來,不同的路口的掉頭還不太一樣,曲率都不太一樣,所以你很難做到一套代碼就可以把所有環島掉頭搞定,種類太多了。
一體式的端到端方案則不同,其具備更強的復雜道路結構的理解能力,可以運用人類駕駛員數據訓練出不同的環島類型、不同出入口的進出軌迹,自主選擇合适的行進路線。
如此一來,原有的道路拓撲和人工定義的規則,就再是必須的了。
關于環島這件事,賈鵬還分享過一個「好玩的故事」。
在我們(的模型數據包含)大概 80 萬 clips(視頻片段)的時候,還過不了環島,後來突然有一天發現我們(喂了)100 萬 Clips(之後)它自己能過環島,我覺得是 100 萬(視頻片段)裡頭剛好有一些環島數據放在裡面了。
「模型确實很厲害,」賈鵬補充道,「你喂了什麼數據他就能學會,這是模型的魅力所在。」
理想如今推出的全量版本基于 V4.8.6 模型,後者是在 400 萬 clips 的基礎上迭代的第 16 個版本。和以往相比,新模型對于超車場景和導航信息的理解能力得到提升,同時,障礙物的檢測更加精準,繞行的幅度也更為合理。
因此不僅是環島,像 U 型掉頭、擁堵時的蠕行和博弈、十字路口等傳統復雜場景,如今的「端到端 +VLM」智駕系統,都能夠很好地自主處理,甚至還支持 P 檔激活——
在路邊停車時,用戶原地輕按兩下撥杆來激活智駕系統,不必再像以前一樣,必須在車道内才能激活。
介紹完端到端模型的能力,接下來就是 VLM 模型。
VLM 模型是一種視覺語言模型,理想是第一個将視覺語言模型成功部署在車端芯片的廠商,使自動駕駛具備了未知場景的邏輯思考能力。
也就是說,它能夠像人一樣思考。
舉個例子,能夠生成行駛軌迹的端到端模型,完全具備通過收費站的能力,但它在面對收費站時,并不是很清楚自己應該走哪條道,最後只能随便挑一條來走。
而 VLM 模型,則能夠像人類一樣理解物理世界的復雜交通環境和中文語義,可以清楚地分辨 ETC 車道和人工車道,并輔助端到端模型做出正确的決策。
類似的場景其實還有很多,如公交車道和潮汐車道的識别、學校路段等路牌的識别、主輔路的進出等。不僅如此,在遇到施工場景、坑窪路面甚至是減速帶時,VLM 模型也能很好地理解,進行提醒和降速。
截至目前,理想汽車的 VLM 視覺語言模型已經擁有了 22 億的參數量,對物理世界的復雜交通環境具有更拟人的理解能力。
此外,在 OTA 6.4 版本中,高速 NOA 功能也得到了優化,在高速 & 城市快速路場景中,系統可以更早地識别前方慢車,超車動作更加高效安全。
總而言之,在端到端 +VLM 雙系統的幫助下,如今面向用戶的 OTA 6.4,其拟人化程度上到了一個新的台階。
理想的「快」與「慢」
從技術架構來看,理想汽車這兩年經歷了三次比較大的調整。
從需要先驗信息的 NPN 網絡,再到基于 BEV 和占用網絡的無圖 NOA,再到如今的一體化端到端技術路線。
第一代 NPN 架構比較復雜,包含了感知、定位、規劃、導航、NPN 等模塊,它們共同支撐起了理想汽車當時 100 城的城市 NOA 推送。
第二代無圖 NOA,理想汽車引入了端到端大模型,模塊數量大幅縮減,只剩下了感知和規劃,不再需要等待先驗信息的更新。
理想的這一步,讓車企的「卷」,不再局限于無聊的開城數量,真正實現了有導航就能開。
今年 5 月,理想汽車招募了 1000 位用戶,正式開啟了無圖 NOA,也就是 AD Max 3.0 的公測。當時的用戶反饋,遠遠超出了理想汽車的預期,短短兩個月後,理想汽車就為 24 萬多位理想 AD Max 用戶推送了這次更新。
只不過,這個時候的端到端,還是一個分段式的端到端,第三代智駕方案,才是真正意義上的一體式端到端——從輸入到輸出,全部由一個模型實現,中間沒有任何規則的參與。
在以往,無論是有圖方案還是無圖方案,都依賴工程師根據各種各樣的道路場景去編寫規則,力圖窮舉所有道路狀況和與之對應的方案,讓智駕的範圍盡可能地廣。
通常來說,廠商會把場景大致分為三種:高速場景、城區場景和泊車場景。這幾大場景又可以繼續細分,規控工程師們則需要針對這些場景來編寫代碼。
但面對錯綜復雜的現實世界,這樣的做法顯然不夠現實。而一體式端到端,則可以學習人類開車的過程,接收傳感器信息後,直接輸出行駛軌迹。
有沒有發現,這個時候,提升智駕能力最重要的因素,從工程師變成了數據。而理想,最不缺的就是數據。
10 月 14 日,理想汽車迎來了第 100 萬輛整車在江蘇省常州基地下線,中國首個百萬輛新勢力車企就此誕生。根據理想汽車公布的數據,在 30 萬元以上的理想車型中,AD Max 用戶的比例,高達 70% ——
每過一個月,這些車都能給理想提供十幾億公裡的訓練數據。
另外,理想很早就意識到數據的重要意義,打造了關于數據的工具鏈等基礎能力,比如理想的後台數據庫實現了一段話查找當時,寫一句「雨天紅燈停止線附近打傘路過的行人」,就能找到相應的數據。
正是憑借龐大的訓練數據和完善的控制鏈,理想智駕實現了在行業中的「後來居上」,用端到端和 VLM 組成了自己的「快」與「慢」。
在理想看來,這套雙系統智駕方案,類似于諾貝爾獎得主丹尼爾 · 卡尼曼在《思考,快與慢》中的快慢系統理論:
人的快系統依靠直覺和本能,在 95% 的場景下保持高效率;人的慢系統依靠有意識的分析和思考,介紹 5% 場景的高上限。
其中,端到端是那個「快系統」,而 VLM 自然就是「慢系統」了。
郎鹹朋認為,一個自動駕駛系統到底是 L3 級别還是 L4 級别,并不取決于端到端,VLM 模型才是真正能去應對未知場景,拔高能力上限的關鍵所在。
「理想同學,我要去這裡」
除了智能駕駛方面的更新,OTA 6.4 在用戶互動方面也引來了革新。
這裡同樣分為「快」和「慢」兩個部分。
作為「快系統」的端到端模型所對應的通常為文字彈窗,為駕駛員實時提供導航、交規、效率、博弈等執行邏輯和動作。
對于「慢系統」VLM 視覺語言模型,理想則為它準備了全新的圖文視窗。在特殊場景下,将前方感知到的畫面投射到頁面内,配合文案講解模型的思考過程和結果。
在文字彈窗和圖文視窗的配合下,無論系統執行何種車控動作,駕駛員都能提前知悉。對于那些初次體驗智駕的消費者來說,這種直觀的信息展示也有助于迅速建立他們對智能駕駛系統的信任感。
不得不承認,理想汽車對用戶需求的理解确實非常精準。
在我們對于未來的暢想中,智駕和智艙總是綁定在一起的,在 OTA 6.4 版本中,理想也為它的智能空間帶來了不少更新。
首先是新增的任務大師 2.0 全面接入了理想同學和 Mind GPT 的能力,在大模型的加持下,任務大師的表現更為智能。
Mind GPT 加持下的理想同學,不僅能夠在周末家庭短途旅行和解答日常小疑問這兩個場景裡發揮作用,結合新更新的高德 AutoSDK 750 版本導航地圖,理想同學可以通過「觸控 + 語音」的方式,讓駕駛員迅速進行目的地搜索。
比如說,指着地圖上的某個位置,讓它幫你搜索充電站任一品牌的充電樁,甚至還可以指定功率。
總之,全新的理想同學完全可以讓你不必拿起手機,你可以用最自然直觀的方式,輕松設定導航路徑。
端到端負責駕駛,VLM 替你思考,而你只需簡單地指引方向。