今天小編分享的科技經驗:特斯拉FSD V12試駕平平無奇?,歡迎閱讀。
作者 | EatElephant
編輯 | 章漣漪
當地時間 8 月 26 日,特斯拉 CEO 馬斯克親自上線,開啟了一場路測特斯拉 FSD V12 的直播。試駕過程中,馬斯克多次表示現在的系統沒有一行規則和條件判斷代碼,不需要高清地圖,甚至不需要聯網就可以完成一切。
直播全程 45 分鍾,吸引超 1000 萬人在線圍觀。其中,馬斯克只有一次駕駛幹預,這發生在一個繁忙的十字路口,馬斯克所駕駛的特斯拉試圖闖紅燈,他立即控制了車輛。
從技術上看,特斯拉 FSD V12 版本采用的是端到端的大模型技術,即:一端輸入環境影像,一端輸出控制指令,中間是一個神經網絡大模型,這幾乎是接近人類真實駕駛。
針對這一事件,以及特斯拉 FSD V12 技術背後的邏輯,AI 算法工程師 EatElephant 進行了解讀,賽博汽車授權進行編發。
以下為《賽博汽車》依照 EatElephant 的文章整理改編而成——
其實挺驚訝對這次 demo 的評價目前看來還是比較負面的,從消費者角度其實這可以理解,畢竟 19min 就接管一次,還是闖紅燈這種極其普遍的駕駛場景中的致命錯誤,不過要知道這并非發布的用戶版本,而是研發内測的 Alpha 版本,說一個研發版本不夠完善穩定我個人感覺是有點吹毛求疵了。
作為技術從業者,我們更應該從更加技術的角度去看待 FSD Version 12 的這次 demo,我個人認為這次 demo 給我帶來的衝擊和引起的思考是比較大的,甚至不輸于以往的幾次 AI Day 和 Autonomous Day。
首先要知道為什麼大家對 V12 如此感興趣。原 因是老馬在今年 5 月份就爆了一劑猛料,FSD V12 會徹底轉向端到端的自動駕駛技術方案,并且他還說 V12 會令 FSD 走出 Beta 階段徹底成為一個正式版的產品。
老馬 5 月宣布 Version12 将轉為端到端系統的 Twitter(X)
這個消息的噱頭有多大呢,我感覺吧其實不輸于 2020 年公布 FSD Beta 将于當年 10 月發布, 畢竟端到端的自動駕駛長期以來一直局限于學術研究中,Tesla 之前唯二的先行者 Comma 僅僅只能進行高速方面的簡單駕駛動作,Wayve 則局限于英國少數地區的内部測試,而要知道 FSD 可是在廣大的北美大陸可以任意開啟的,這需要端到端系統體現的泛化性可以說和前兩者相比要高出一個層級 。
業内普遍共識,端到端的自動駕駛系統理論上有比現今模塊化的自動駕駛系統更高的能力上限,那麼端到端系統為什麼并沒有成為業界主流呢?
原因是端到端系統在提高模型上限的同時也無限放大了神經網絡黑盒的不可解釋的問題,而不可解釋性會給研發迭代和問題解決造成巨大的負面影響,同時業界也沒有端到端系統的成功先例,對于這種處于前沿科技無人區的技術方案絕大多數公司是沒有勇氣和實力敢為天下先的。
那作為端到端的 V12 首次公開亮相,我認為這次 demo 是毫無疑問的成功的,甚至是驚豔的 。 我的理由主要有以下三點:
1. 本次 Demo 展現了 FSD V12 端到端系統的成熟度
很多國内外的網友質疑這次 Demo 的路況場景都十分簡單,Palo Alto 的交通即使在下班高峰看起來也遠遠比不了國内大城市道路的擁擠繁雜,在這種情況下甚至還有一次嚴重問題接管 ,其實算不上優秀,對于這個觀點我其實很認同。
然而作為自動駕駛的算法從業者,我對于這次 demo 的關注點其實不在場景的困難程度,因為理論上端到端的系統自然比基于規則和搜索的現今主流自動駕駛系統上限高很多,其核心問題在于下限可能很低 。
端到端系統起步慢但上限高
今年 CVPR 小鵬的 Patrick 有這樣一個圖表很好的說明了端到端系統的特性,可以看到端到端的系統最大問題在于模型能力起步較慢,同時黑盒不可解釋不可控的性質會導致系統雖然能夠處理復雜場景,但是簡單場景很可能相比目前主流系統會產生退步,甚至是犯很多 " 弱智 " 的錯誤,同時因為業界缺乏端到端系統的工程實踐經驗,一些看似簡單的 fix 無法通過增加規則代碼迅速解決,因此嘗試端端到端的方案大多數時候可能會是死在起跑線。
實際上我甚至認為如果哪家公司能夠利用端到端的新技術架構來獲得一個功能穩定性匹敵現有技術架構的自動駕駛系統,那麼基本可以證明端到端系統是未來方向。
因為,理論上端到端系統在達到現有技術水平的那個時間點之後會很快繼續提高水平将現有技術棧甩在身後,所以上圖紅藍線交叉的點我認為可以稱作端到端系統正收益的爆發點,一旦達到這一點基本上主流的技術範式就會被颠覆。
所以,考慮到 Tesla V12 應該研發時間不長,我對于 V12 首秀能在随機選取的測試路線上在眾多基礎的轉彎,變道,環島,與行人互動等場景表現十分穩定平順其實是非常驚訝的,而 FSD V12 的這次初次亮相部分說明了 Tesla 已經比較接近這個爆發點了,而這是我認為本次 Demo 傳遞的十分重要的信号。
2. 透露了 Tesla 端到端自動駕駛的一些重要的思路,理念和實踐經驗
這次 Demo 另一個關鍵意義在于,通過 Demo 的一些細節以及直播過程中老馬和 Ashok 的聊天透露了很多 Tesla 對于端到端系統的實操經驗和理解,而在端到端系統嚴重缺乏行業最佳實踐的現在,這毫無疑問是對技術從業者具有啟發意義的。
比如說,很多人以為端到端是一個中間完全不透明的黑盒,但是實際上目前大多數比較深入的端到端實踐都表明保持端到端系統中間結果的可解釋性是很重要的。
今年 CVPR Best Paper UniAD 就設計了一個端到端可導但是保留了中間子網絡輸出的端到端系統,而從直播中可以發現 V12 幾乎完整的保留了當前 FSD 的感知結果輸出,很顯然至少在目前階段 Tesla 的端到端技術方案也是保留中間功能子網絡的路徑。
那這個方案和普通的模塊化方案有什麼區别呢?
其實重要區别在于各模塊都去除了基于規則的代碼,使得整個系統端到端可導,這使得整個系統作為一個整體直接對于駕駛動作進行訓練優化成為可能 。而傳統的自動駕駛架構由于模塊化以及并非端到端可導,使得各個功能模塊只能通過各自訓練優化自己的任務,最終結果是多個局部最優無法實現整個系統的全局最優。
CVPR 2023 Best Paper UniAD 保留了整個系統中間的各個功能網絡
這樣的方案其實比較好理解,保留中間結果相當于通過人類先驗知識把人類覺得有用的駕駛概念提取出來,給到端到端下遊網絡,也給到網絡的還有可能包括更加前端基礎的輸入,由下遊決策規劃網絡自由選擇使用哪些信息進行判斷,這樣的技術方案通過人類先驗加快了端到端系統訓練時性能起步速度,但是又保留了原始信息直接輸入下遊,減少了傳統模塊話系統中間輸輸出導致的信息損失。
同時,對中間結果進行分析也有助于确定系統犯錯時問題的原因,提高解決問題的效率。
V12 幾乎保留全部 FSD 感知結果可視化效果,但似乎沒有紅綠燈可視化
另外馬斯克和 Ashok 在聊天過程中反復強調 V12 沒有顯式的把車道線,環島,減速帶等概念的處理辦法灌輸給系統,對于這點我的理解是 V12 并不是沒有檢測這些内容,而是在規控網絡中沒有顯式的添加如何應對這些概念的規則,應對方法是由網絡自己通過駕駛員視頻學習得到的。
例如,軟體沒有顯示要求自車要在車道線居中,模型自己從人類駕駛視頻中學習何時應該居中,何時可以适當偏離中線以達成更加拟人的駕駛決策。
3. 展現了端到端自動駕駛系統相比傳統架構優勢的一些閃光點
雖然上面說了,我更加關注的是 V12 相比現有 FSD 是否在基礎功能上存在性能回退,但是在這次 Demo 中我們也看到了很多 V12 的閃光點。
這次的一個大家容易忽略的亮點其實就發生在老馬第 19min 紅綠燈接管之前。
當時的場景是這樣的,直行的綠燈亮起但是前方路口擁堵,這時比較合理的駕駛決策是不要進入路口,等待目标路口空間出現再選擇通過路口,而 FSD V12 也正是這樣做(不要糾結國内國情,實際上我國的交規也是這樣建議的,雖然很少有人按照執行),不過這也導致了這次綠燈 V12 沒能通行,一直到綠燈變紅,再下一次左轉綠燈亮起的時候 V12 出現了誤判。
上述情況出行的原因是:V12 目前似乎并不直接檢測紅綠燈的狀态(可視化界面中好像不再出現紅綠燈檢測結果),而是綜合參考了紅綠燈情況和周圍其他這輛行為來判斷是否應該通行,所以當有紅燈變綠,且周圍左轉車輛開始移動的時候,V12 產生了錯誤判斷,認為直行也已經可以通行,造成接管。
直行綠燈但路口擁堵,V12 選擇等待,沒有進入路口
第二個亮點出現在一次途徑點到達過程中,V12 可以進行靠邊停車的操作,而這也是目前的 FSD 所不具備的功能 。
而且 Ashok 在直播過程還透露,未來 FSD 甚至可以響應用戶語音指令輸入。例如用戶可以告訴 FSD 向左換道,或者告訴 FSD 帶自己到達前面沃爾瑪,FSD 就會根據語音指令分析其中語義信息并執行相應動作。這裡我的猜測是有可能在 V12 的模型中也有文字模态的加入,這也是目前自動駕駛系統中很少使用的新技術,随着大語言模型的爆炸式發展,在自動駕駛中融入語言模型這一方向也給人很大的遐想空間。
總之這次 FSD V12 的 Demo 可以說是自動駕駛行業内一次具有颠覆性的事件,雖然本次 demo 依然存在問題,也還無法完全證明端到端系統就是自動駕駛未來的前進方向,但是随着本次 demo 的展示,我相信端到端的自動駕駛很可能将擺脫空中樓閣的尴尬境地,有潛力成為未來幾年内行業争先投入的重點。
作為行業領軍的 Tesla(也許有人不認同,但是我身邊的從業者絕大多數對此是承認或者默認的)再次扮演了敢為天下先的角色,後續自動駕駛技術範式到底如何迭代,這次 demo 的意義可能比很多人想象的更加深遠。