今天小編分享的科技經驗:對話理想郎鹹朋:我們已經領先于特斯拉,歡迎閱讀。
特斯拉 CEO 埃隆馬斯克在 2023 年發起了一場特斯拉智能駕駛軟體 FSD V12 的直播活動——視頻中的這輛特斯拉基于最新的端到端技術,軟體删除了大量的工程師規則代碼,轉而采用主神經網絡算法。車輛基于自主視覺和神經網絡來指示車輛在何處減速,識别交通信号燈,以及道路上任何參與者,并進行自主決策。
這一技術随後引發了從行業内到科技愛好者,甚至是汽車普通消費者極大的讨論和興趣。
這是智能駕駛新一輪的範式復蘇。直到今天,中國市場上仍然湧現着眾多觀點:
端到端技術的出現,拉平了很多做智駕的汽車公司的起跑線,大家又重新站在一個起點,開啟了一場數據和算力的長跑。
端到端技術受到強數據的影響,模型的搭建和數據的獲取數量,尤其是有效質量的數據獲取,影響着技術的快速迭代。
在中國市場,擁有着 " 主場優勢 " 的自主汽車廠商開啟了又一場智駕的長跑,同時認為特斯拉 FSD 領先優勢會在這個階段被抹平的觀點不在少數。
理想汽車智能駕駛研發副總裁郎鹹朋博士也認為,從技術架構上,理想最新的方案和特斯拉沒有太大差别,甚至更領先一點。因為理想有 VLM 模型,有系統 2,特斯拉只是有系統 1 的端到端。
理想汽車的端到端模型是 One Model 一體化端到端,與市面上其他汽車企業的端到端有些許不同。
常規的端到端技術,是只用人工智能模型,機械自學習的方式,去替代智能駕駛過程中的感知、規劃控制等模塊,從視覺的 " 輸入 " 端,到智能駕駛系統最後控制車輛自行駛 " 輸出 " 端,都完全由模型來處理。一個純 " 端到端 " 的技術在這個過程不再設定規則式代碼,成為一個完全的黑盒。
但市面上的很多汽車企業的端到端,包括特斯拉、華為和小鵬等走得相對靠前的廠商,仍然會設定一定的底層負責安全冗餘的算法。感知、規劃控制可能會是相對獨立的模塊,接口仍然需要被人工定義,和連接。
One Model 一體化的端到端意在把感知、規劃控制模塊放在一起,在理想的内部被稱為系統 1,更像是一個司機,快速地執行端到端的決策。
過去,端到端在智能駕駛領網域的應用,經常會遇到上限高,但下限也低的問題。比如業界領軍企業特斯拉在美國加州的測試非常的絲滑,表現得已經很像一個人類司機,但一旦進入到不太熟悉的地區,會出現難以解釋的規控決策。
這是端到端的弊端之一。
理想的做法是引入系統 2 —— VLM 視覺語言模型,再往前邁一步。
按照理想的說法,VLM 視覺語言模型是世界上第一個成功部署在車端芯片的大模型,具備應對復雜場景的邏輯思考及決策能力。
除了 One Model 端到端之外,系統 2 —— VLM 是作為輔助系統 1 進行規劃決策的另外一套模型算法。基于 VLM 的系統 2 能夠提供復雜環境的理解能力、讀懂導航地圖的能力以及交通規則的理解能力。
郎鹹朋給這套組合一個更通俗的解釋:系統 1 就像是司機,而系統 2 是一個駕訓班教練。系統 1 完全靠自己的視覺感知,執行操作,系統 2 需要長期積累知識給系統 1 提醒和告知。
理想汽車智能駕駛高級算法專家詹锟,他的團隊率先提出了這個概念。仿照認知心理學家、諾貝爾獎得主丹尼爾 · 卡尼曼——其認為,人腦就帶有這樣的兩個系統,第一個系統基于經驗和直覺,第二個系統會綜合學習積累的邏輯推理能力。
兩個系統為整個理想的智能駕駛服務,這也讓理想的智能駕駛方案完全不同于其他車企。
在美國市場,特斯拉 FSD 在算力上和數據上都是領先者。
但在中國市場,理想的策略似乎是在復刻一條 " 中國特斯拉智駕之路 ",使得自己的身位更靠前一點。
郎鹹朋稱,"在中國的訓練算力和訓練數據上,我們認為至少從現在看我們是領先于特斯拉的,因為特斯拉不管是數據的合規性,還是受到中國的一些約束,以及訓練算力的部署,在中國還需要搭建。"
理想在數據測試流程上,也引入了一套世界模型的體系。
理想稱,世界模型支撐了全新一代理想智能駕駛大範圍、高速迭代,提供了自動化的 AI 能力評價體系,通過重建技術将用戶遇到的問題場景變成 " 錯題集 ",通過生成技術将用戶的真實駕駛場景舉一反三為 " 模拟題 ",兩個技術确保了在模型評價時錯題不再做錯,同時兼具優秀的泛化能力。
基于理想 One Model+VLM+ 世界模型的技術方案,這也讓全新一代的理想智能駕駛產品邁入了 " 有監督的自動駕駛 " 新階段。
理想是第一家将 VLM 部署到 Orin-X 芯片的企業,也是第一個邁出雙系統架構的車企。在中國,理想已經擁有接近百萬級的銷量規模,這勢必會提升有效數據的占比。理想汽車目前累積的訓練裡程已超過 22 億公裡,預計到 2024 年底将超過 30 億公裡,理想汽車當前訓練算力達到 5.39EFLOPS,預計到 2024 年底将超過 8EFLOPS。
但業界對于端到端技術的應用和前景仍然是争吵不休——有人認為沒有 500 億做不了智駕,有人認為至少在未來幾年内,基于規則的模型算法和單一模塊功能的端到端仍然會并行,純端到端仍然是扯淡。
一定程度上,理想用戶體驗團的測試效果驗證了這條路目前的合理性。無論如何,理想汽車率先邁出了這一步。
理想汽車智能駕駛研發副總裁郎鹹朋博士、理想汽車智能駕駛高級算法專家詹锟
以下是和理想汽車智能駕駛研發副總裁郎鹹朋博士、理想汽車智能駕駛高級算法專家詹锟的交流速記,對話經過不修改原意的編輯:
提問:市面上大家都說自己是端到端,什麼才是真正的端到端?
詹锟:端到端是一種研發的範式,顧名思義,它是指做一個任務,從最開始的輸入端到最後的輸出端,中間沒有其他的過程,用一個模型完整從輸入到輸出,這是端到端的本質含義,只要滿足這個含義的,我們都可以稱之為端到端。
現在理想汽車是一體化 One Model 端到端,通過直接傳感器輸入,模型推理完畢後直接給到軌迹規劃用來控車,這就是一體化端到端,中間沒有其他步驟。還有一種端到端的方法,是在中間分兩個模型,模型中間以一個信号做橋接,輸入是一個感知的模型,把感知結果再輸入歸控模型,合在一起成為一個模塊化的端到端,這或許也能稱為一種端到端,但是我們認為這樣的端到端并不是真正的端到端。理想汽車的端到端本身想解決中間信息的損失,如果中間加了人為的信息消化過程,可能效率不是那麼高或能力上限受到約束,所以我們認為一體化的端到端是更本質的端到端。
提問:我們是不是受到特斯拉的啟發,相比于傳統的模塊端到端有沒有什麼區别?
詹锟:特斯拉的确在 2023 年初就提到了端到端,也是馬斯克在推特上說它體現了一個完整的從輸入到輸出直接控車的模型。大家看到這個消息後也很震驚,因為這個東西并不是他們剛提出來,在 2016 年的時候英偉達就有一個模型提到了端到端,也發表了一篇論文,但效果一般,只解決了特别簡單的場景,以當時的算力和模型規模下,大家認為這條路是行不通的。
到 2023 年,在新的 transformer 的架構上增加了超大算力,特斯拉做出來之後,又可能出現一個新的範式的復蘇。端到端不是特斯拉第一個提出來的,但在往更有成長的方向上推進。我們看到以後,内部也在思考,端到端相比于以前模塊化的模型,更本質的方法是減少了各種信息的冗餘。在無圖上,我們接近于模塊化的端到端,我們有感知大模型,其實就是一種模塊化的端到端模型。即使這樣,我們發現端到端的模型還是需要規則,還是有分模塊的數據和分模塊的策略任務。
我們這次在新的方案讨論和構思上,提出端到端一定要更徹底、更本質。理想汽車有非常豐富的數據,我們相信這些數據是能夠支持我們做好的,這是我們的優勢。所以我們選擇了挑戰更大、更困難的端到端一體化架構,它的上限很高,但缺點是訓練比分模塊的要難,包括數據配比和訓練方法有很多的 know-how 需要去探索和挖掘,但我們還是毅然決然地選擇了難而正确的道路。
提問:現在很多品牌提出自己是引領者,理想汽車也在說已經跻身智能駕駛第一梯隊,怎樣評價市面上這些企業的端到端的技術水平?
郎鹹朋:從技術方面來看,對于普通消費者來說,他們并不關注是有圖還是無圖,端到端還是非端到端,大家最終關注的是產品和使用的體驗,是產品價值。所以,我們不是要和誰比,而是希望能夠為我們的用戶提供更好的產品和服務。之前配合高精地圖的高速 NOA,高速 NOA 的體驗達到了用戶的使用需求。接下來,我們在做城市 NOA 的過程中嘗試了很多種方式,其中一個很簡單的思路是用有圖的方式做城市 NOA,但是發現并沒有一個圖商能夠提供城市的高精地圖,只能提供輕圖。但我們認為輕圖不行,因為一旦需要迭代圖,就會出現時效性和是否能夠真正使用的問題。我們不能夠讓用戶感受到某個地方今天能用但明天就無法使用。
最後,我們決定就做無圖。以前的無圖方案還是感知、規劃、分模塊的方案,裡面有大量的人工規則和實車測試,先不說預算投入方面,時間上就非常困難。當模型迭代出來,如果想将一年四季的各種情況都跑一遍,沒有一兩年時間是不可能實現的,而且用戶也不可能等那麼久。所以我們又迭代到端到端 +VLM 技術架構,我覺得這個技術方案,本質上是人工智能方案,它不是設計出來的,而是自己成長出來的。
另外,今天我向大家介紹了世界模型的内容。這個能力在我看來,是實現自動駕駛快速迭代的最重要的且最必要的保證。一個模型迭代,如果用傳統的方式需要用大量的車、人、時間做測試,但是現在使用生成和重建技術,将以前出現問題的場景收集回來,自己組建錯題場景庫。就是每次發布之前,單純的錯題就做了一千多萬公裡的測試,而且這是有效的錯題集,不是随便亂跑的路試。除此之外,我們還可以生成場景、模拟場景,這也是幾千萬個場景測試。現在用這種方式進行模型迭代比原來整車或者路試的方式要可靠得多,而且一年四季各種場景全都可以涵蓋。這是我們的做法,其他友商品牌是不是這麼做的,我們并不知道,但是我們完全是根據用戶需求出發。我們迭代技術,不是為了技術而技術,而是這個技術确實能解決用戶的需求,能帶來更好的產品體驗,那麼我們就做這個事情。
提問:前不久有人提出 " 沒有 500 億做不好智駕 " 的觀點,您對此有什麼看法?
郎鹹朋:關于 500 億,需要判斷是一次性投資還是長期投資,就像今天提到的我們每年都會有 10 億美金投資在智駕研發中,如果連續 10 年的話是超過 500 億的。
端到端 +VLM 的技術架構是一個分水嶺。之前我們還是在用傳統方式做自動駕駛,從這一代開始,才是真正用人工智能的方式做自動駕駛。接下來做自動駕駛的研發,核心競争就是是否有更多更好的數據和與之配套的算力去訓練模型。而算力和數據的獲取,需要看花多少錢、投入多少資源去做。而這其中有些東西是用錢買不到的,比如訓練數據,訓練裡程,各家車企有自己的數據,相互之間并不會互通共享。
另一個需要投資的是算力,我們現在 5.39 億 EFLOPS 的算力,到今年年底預計 8 億 EFLOPS,這已經不是 10 億人民币,而是 20 億人民币的花銷,一年就要消耗 20 億人民币。未來進入到 L4 階段,每年數據的增長和算力的增長,都是呈指數級的增長,這也就意味着每年至少需要 10 億美金(六、七十億人民币)。而 5 年之後,它需要持續迭代,在這樣的量級下,一家企業的盈利和利潤不能支撐投入的話是很困難的。所以,現在并不需要關注投入多少億做自動駕駛,而是從本質上出發,是否有充分的算力和數據支持,再看看需要投入多少錢。
提問:如何保證在數據量不是十分大的時候模型的安全性,從概念上看,我們現在是不是同樣屬于一種 "Two-Models"?
郎鹹朋:" 安全性 " 是一個備受關注的問題,是否存在配合的問題,有沒有獨立的安全模塊等等。大家之所以有這些問題,還是因為大家站在過去的非 AI 自動駕駛研發角度在思考。比如我以前是騎馬的,他會問我汽車上有馬鞍嗎?是因為大家還沒有真正理解什麼是 AI 的做法,什麼是非 AI 的做法,這是第一點。
第二,現在很多人都說自己是端到端模型,但是真正的做端到端,還是要看兩個能力:有沒有足夠多的數據和有沒有充足的算力。否則,我覺得很難做出真正的端到端來,因為端到端是 AI 的做法。
第三,端到端能力的上限和下限都很高。我類比一下,在 CNN(深度神經網絡模型)出來之前大家還在用傳統的機器學習的方法做一些工作,比如我們熟知的影像分類任務,當時 SVM 類算法遇到了瓶頸,但是 CNN 一出來就碾壓了他們 10%+ 的提升。我想表達的是,大家還沒有真正理解到端到端的能力,我們不會貿然的推給内測用戶。
在我們使用非 AI 方式的時候,在縱向控制這一個細節上我們要考慮到非常多的場景,這樣在做場景規則設計的時候要設定非常多的條件,規定在某種條件下需要采取怎樣的策略。但是當我們第一個版本的端到端模型訓練出來的時候,我發現它在每一個路口或者需要縱向控制的條件下都會非常舒适。我們并沒有針對特殊情況進行調試,是模型自己訓練出來的能力。能夠發現,我們在做規則的時候有很大的問題,因為場景過于多樣化,我們不可能針對所有的場景進行規則的設定。但是我們用 AI 的方式做端到端模型的時候就會發現它有這種魔力,我們把數據給它,它就能真正學習到這些人開車的經驗,不僅能學到上限,也能夠大幅度的提升下限。雖然它依然有自己的局限性問題,但是我們解決他的方式不再是設定規則,而是給它更多更優秀的數據。
同樣我們也有兜底的策略,在控制模塊上。因為我們端到端是傳感器輸入到軌迹輸出,軌迹輸出後給到轉向、制動模塊,在這個地方我們是有安全兜底策略的,比如它打算去進行急轉彎 180 ° 的專項,我們會對他進行約束,但是這種類似的規則非常非常少,相比于之前的做法可以忽略不計。
同時,我們提升了安全的底線和能力上限,我們的做法是不斷給它優質的數據,它一定會學到很多安全的駕駛習慣。
提問:怎麼保證給到端到端 +VLM 數據是幹淨的?
詹锟:無論做端到端還是 VLM,數據都是最重要的,大模型一直在強調高質量數據。所以我們的第一步就是數據來源的清洗。我們對駕駛數據的選擇是非常嚴格的,我們對每個車主都有一個内部的打分,包含各個維度,并且進行加權,比如是否駕駛違規、是否長期壓線、是否停過停止線、是否開車過程中急打方向盤或有不舒适等等,綜合各種指标打出來的分數最後選擇前 3% 的用戶作為 " 老司機 "。在理想大規模數據的情況下,即使前 3% 也是非常大的數據量級,依然能夠保證我們拿到的數據是非常好的,至少駕駛行為是規範的,是舒适的、合理的,把這些數據給端到端就很好。
第二層還有篩選,在模型訓練過程中,我們還要對模型的樣本進行一些場景的匹配和分類,有很多極端的,比較難的場景,會有評價的模型、評價的手段,以及一些規則都可以把數據清洗出來,給數據各個類型做很詳細的标籤分類。
最後一層,我們在訓練過程中會知道哪些樣本是很難學習的,進行學習策略的調整,包括我們會故意構造一些合成數據進行強化學習和對比學習。針對我們的數據做一些學習方法的調整,這樣下來對我們整個端到端的數據,VLM 的數據都是很好的校驗和清洗,給到的模型會更好。這個過程不是一蹴而就的。
郎鹹朋:還有一個問題,髒數據的問題。我們的數據量訓練還是比較大的,我們後面即使有非常小的髒數據,因為 AI 的能力訓練并不是有一個污點就能污染整個效果的,所以只要準确的數據量足夠大,有一點點幹擾數據也沒有太大的關系。
提問:過去幾年智駕的技術戰快速變化經歷了幾次大迭代,端到端 +VLM 會是一個有長期生命力的構架嗎?
郎鹹朋:端到端 +VLM 是模拟人類思考認知的架構,因為我們做人工智能,最終是希望可以實現拟人或者類人。看到《思考,快與慢》這本書之後受到了很大啟發,最終就想知道人是怎麼做認知和思考的,目前的人工智能的框架我們認為是做的非常合理的,而且我們也很欣喜的看到,在我們提出後,行業内很多企業也開始提起雙系統理論的好處,并且在嘗試跟進。而且雙系統理論,不僅可以用在自動駕駛上,它也是未來人工智能甚至智能機器人的範式。自動駕駛可以說是一個輪式智能機器人,只是工作範圍是道路。所以,我覺得是有一定的長期行為力的,但技術發展是無窮無盡的,我們會保持對先進技術的敏捷感知,如果有新的技術我們也會追蹤。
提問:理想目前感覺自己和特斯拉智駕的差距有多大,大概什麼時候能夠追趕上?
郎鹹朋:去年的時候,我回復過差半年,今年可能還會再小一點。第一,從技術架構上,我們跟特斯拉沒有太大差别,甚至更領先一點,因為我們有 VLM,有系統 2,特斯拉只是有系統 1,端到端。第二,在中國的訓練算力和訓練數據上,我們認為至少從現在看我們是領先于特斯拉的,因為特斯拉不管是數據的合規性,還是受到中國的一些約束,以及訓練算力的部署,在中國還需要搭建。在這個層面上看,我們在中國,可能跟特斯拉差距并沒有那麼大,我們也特别希望特斯拉能加入進來,互相學習,專注做自身的提升。
提問:有一種觀點認為智能駕駛的 AI 路徑不太對的,不認為這條路徑能走通,因為 L2 更注重低成本或者通用性,但 L4 的安全性解決後才能有通用性,所以量產車能不能做 L4?
郎鹹朋:第一,我們認為一切還是從用戶的需求和用戶價值出發。理想汽車做的任何產品,都一定是要超越或滿足用戶價值的,用戶覺得有價值我們才做。我們認為用戶對自動駕駛一定是有需求的,所以我們不可能設計用戶只能在成都開 L4,其他地方開不了。
第二,漸進式或者跨越式的技術路線,是各品牌都可以去讨論并選擇自己的技術路線,但是理想汽車一定會選擇一條滿足用戶需求的技術路線,我們現在選擇用人工智能的方式去做自動駕駛。之前叫輔助駕駛是系統輔助人來開,主體是人。但是到現在端到端 +VLM 這個階段後,我們認為是變成車自己在開。訓練出完整模型之後,模型自己有能力開好這個車,我監督這個車哪裡不行或者有提示需要接管,但是主體一定是車,人作為一種監督的輔助角色,如果達到這個程度就滿足了我們用戶對自動駕駛的需求,這是我們的邏輯。
提問:理想汽車對高階智駕有沒有收費的計劃?
郎鹹朋:标配和免費都是理想從第一天開始進入智能駕駛就制定的策略," 有監督的自動駕駛 " 對所有 AD Max 的車主都是不收費的。交付量比較好且企業經營穩健,也有足夠的資源投入智駕研發。交付量是非常重要的一個衡量指标,對于我們來說不是單純卷交付量,而是還能為自動駕駛提供更多的車輛訓練裡程。