今天小編分享的互聯網經驗:對話理想智駕副總裁郎鹹朋:端到端之後,智駕還能拼什麼?,歡迎閲讀。
理想汽車智能駕駛研發副總裁郎鹹朋
新能源汽車的下半場,智能化果然是主旋律。價格戰之外,各家智駕能力的比拼,也成為搶占用户心智的新戰場。
作為造車新勢力的代表之一,理想在 7 月份月銷過 5 萬輛,去年營收超千億,銷量上已經實現了 " 遙遙領先 ",但在智駕上的動作一直并不激進,或者可以有有些保守。
那麼,作為智駕上的 " 差生 " 或者説 " 後進生 ",理想接下來的智駕策略是什麼?為什麼大家都在切入端到端?現在爆火的端到端智駕新故事,理想又會如何來講?端到端之後,智駕還能拼什麼?
近日,钛媒體 App 與理想智能駕駛研發副總裁郎鹹朋有了一次深入的溝通,對于理想的智駕以及端到端,也有了全面的了解。
快速迭代不是 "Follow"别人
眾所周知,理想在造車新勢力裏面,智駕并不是其标籤。随着銷量穩定上來,智能化開始成為新能源汽車主要競争高地,理想也開始加碼在智駕領網域的布局和投入。
有人説,理想拿出端到端 +VLM 大模型的智駕技術,意在追趕特斯拉、華為的智駕能力。
對此,郎鹹朋表示," 我們看問題就看本質,表面上看起來我們不停地在迭代,或者説跟别人學,或者自己探索,但實際上我們不是一個專門 follow 别人的公司,我們有自己對這個技術和對產品的本質理解。"
那麼,問題來了,端到端到底是什麼?其實就是 End-to-End Deep Learning(端到端深度學習),簡言之,就是要建立一個完整的學習系統,直接從原始數據中不斷學習,并生成所需的輸出,不需要人為将任務分解成多個中間步驟。
在簡單一點來理解,就是采用端到端的這套智駕方案,通過不斷給它喂養數據,它會自己思考學習成長,不斷長大變強。這也是為什麼大家現在都在追逐端到端智駕到根本原因。
據郎鹹朋介紹,去年一年,理想做了三次技術的研發迭代,最先用的都是 NPN 神經地圖先驗( Neural Map Prior)這種帶有場景的方案,然後又轉換到無圖的方案,最後才迭代到現在的端到端方案。
如此頻繁地迭代技術路線,不斷地推倒重來,是否會造成智駕能力的落後?
郎鹹朋認為,從本質上看,無論是 NPN(神經先驗網絡)還是重圖的方案,它最大的問題是只要你用圖你就做不了全國,想要解決它,那就只能做無圖,所以就切到無圖了。但不管是分段式,還是模塊化的無圖方案,它都有上限在哪,都還有人的規則在裏面,無法做到非常拟人的駕駛體驗。
" 理想并不是為了做端到端而去做端到端,而是把無圖、有圖這些技術方案全部都做完一遍,領悟到這些技術特點之後,才堅定地選擇下一步要走端到端這套方案。" 郎鹹朋説道。
翻譯一下就是,理想其實也一直在思考如何實現自動駕駛,如何讓當下的高階輔助駕駛有更好的體驗,在技術上經過不斷地探索之後,發現原來的方式是無法真正做到自動駕駛,這也是為什麼後面在端到端上有了系統 1+ 系統 2 的思考。
在郎鹹朋看來,端到端最大的改變不是一個模型還是兩個模型的問題,而是從端到端開始,才真正地用人工智能的方式去做自動駕駛。之前的串聯式的端到端、分小模塊的這種做自動駕駛的方式,其實本質上它還是一個產品,更偏傳統一點的產品研發思路。
怎麼來理解呢?就是原來做自動駕駛的思路,是先定義需求,然後根據需求來拆解成很多場景,場景再拆分為很多的研發模塊,最後用人制定的規則去實現,這裏面可能用到小模型。研發出來之後,再根據場景去做測試評價,有問題再改,沒問題就交付。
在這個過程中,會有哪些問題呢?
如果場景有限,比如高速 NOA 場景,這種道路結構比較簡單,但擴展到城市之後,它的場景就出現了爆炸式的變化,跟高速場景完全不一樣。如果繼續用以前的方式去設計場景、去設計規則、去實現驗證,這裏面的每一步就會遇到很大挑戰。
因為場景是無窮無盡的,一旦還用原來的方式去做自動駕駛,那自動駕駛的能力邊界就顯而易見了,只能按照你的設計達到某種能力,而超出能力之外的東西,它無法做到。
簡單來説,按照原來用規則來做智能駕駛的開發思路,必須要在一個确定性的環境下來研發。即使問題比較復雜,也想把它拆解得非常确定,然後再去研發做測試。而自動駕駛是沒法用規則式來做的。
郎鹹朋對此的理解是未來的自動駕駛,我們面臨的是一個不确定的變化的復雜的世界,如果還用一些确定性的模式去做這個事情,那就肯定是有問題的。
" 所以從端到端開始,它的變化并不是説一個模型、兩個模型這麼簡單,而是它整個的思維,就是研發的流程和方式發生了巨大的改變,這裏面沒有任何的規則,我能做的是喂給他高質量的數據,再加上訓練提升模型的能力,讓它能做出更好的規劃和決策。" 郎鹹朋總結道。
智駕團隊規模不會超兩千人
端到端的流行,或者説人工智能的快速發展,讓智駕領網域的研發人才也開始出現了變化。
端到端這套方案,讓整個研發流程變得相對簡單了,主要就是挑選數據、訓練模型、評估模型、世界模型。
理想的這套智駕方案是 " 端到端 +VLM+ 世界模型 ",其中最大的特點是采用了雙系統的理論,快系統做出及時的處理響應,慢系統對應復雜的思考邏輯判斷,雙系統共同地組成了人類認知和思維的機制。
具體來看,理想的這套智駕方案,其系統一就是快系統,應用端到端模型來實現,主要是挑選數據、訓練數據;系統二則是慢系統,采用 VLM 的視覺語言大模型來實現,主要是其能像人一樣的思考能力,更好理解復雜道路情況,應對未知場景。經過預研和研發,目前理想的這兩套系統都已實現量產上車。
世界模型,在理想内部稱其為系統三,它是一個考試系統,系統一 + 系統二的能力由系統三去評價和認證。
原來自動駕駛系統的評價與測試,都是由人來執行完成的,不管是跑大的路測還是跑場地的測試都是由人去評價的,但人是評價不過來的。而系統三則能夠取代人去考核系統一和系統二的能力,通過考核之後,就迭代上線,然後進入下一輪的考核。
流程變簡單了,相對應需要的人也變少了。郎鹹朋坦言,除了研發這些系統平台的過程需要人,其實并沒有很多人參與到實際的一些東西上來,會大大減少人的使用,确實用不了那麼多人。
" 我們可能會比特斯拉現在的人多一些,但是也不會達到一兩千人的規模。" 郎鹹朋説道。
實際上,理想智能駕駛研發部門的人員數量,相對蔚來、小鵬、華為等是最少的,據相關數據統計,截至今年 5 月,華為、小鵬、蔚來智駕團隊人數分别超過 7000 人、3000 人和 1300 人。而根據媒體的一些報道,截至 6 月初,理想智駕部門員工總人數已被削減到了 800 人以内。
不過,自動駕駛最重要的是什麼?是人才與資金嗎?郎鹹朋的回答是,長期來看,算力和數據都很重要,但前期對人才這塊,算法更重要。
在他看來,沒有數據,将來算法的訓練、驗證,都是沒有基礎的。但在模型迭代的基礎上,最重要的方式是怎麼去找到更優質的數據,這個數據除了量要足夠大,質量也要足夠好。
端到端之後,智駕還能拼什麼?
當大家都開始做端到端,站在了同一起跑線上,那麼,智駕還能拼什麼?
在郎鹹朋看來,真正到了人工智能時代,大家其實就拼兩件事,一是你有沒有足夠多的高質量的數據;二是你有沒有與之相匹配的充足的訓練算力的集群。
總而言之,自動駕駛到最後拼的就是算力和數據,但這兩件事,門檻都非常高。如果企業的資金儲備不足以支撐每年訓練的花費,那就不可能玩到後邊的 L3 或 L4;如果車企的這個車的保有量不夠多,數據其實也無法支撐它的訓練需求。
據郎鹹朋透露,目前理想自動駕駛每年投在訓練花費上是 10 億人民币,預估将來花費要到每年 10 億美金。
郎鹹朋指出," 這只是訓練的算力,還不包括其他的人員各種費用。如果未來你一年拿不出 10 億美金來做訓練,可能将來會在自動駕駛的競争當中被淘汰。"
理想 L 系列產品都是套娃,但套娃對于自動駕駛來説,郎鹹朋認為是有極大的好處,所有的攝像頭規格和安裝的位置都是一致的,數據都可以復用。
但有的廠商,它的產品可能有轎車、SUV 等,傳感器可能也都不太一樣,對于這些廠商來説,數據的復用确實會是一個問題。
而關于智駕,郎鹹鵬認為,一方面要有遠期的考慮和探索,另一方面也要有現在的交付和產品迭代。對于公司來説,智駕是一個產品。公司做任何一個產品,目的還是為了盈利,為了去獲得更好的現金流,更好的利潤,從而讓企業有更好的發展。
如何證明自己的智駕能力是行業第一梯隊?在郎鹹朋看來," 用户實打實地掏錢買你,我覺得這是最有説服力的。最終還是要看搭載 AD max車型的銷量,這将決定理想的智駕能力是不是在市場上領先,這是最硬核的指标。"
其實,理想 AD PRO、AD max 兩款產品,價格僅相差 3 萬元,主要差别就在智能駕駛的硬體和功能上,其他都一樣。
簡言之,對于郎鹹朋來説,如果在理想的總銷量中,搭載高階智駕版本的 AD max 車型占比較高,那就説明理想的智駕做得還是成功的。
這樣來看,後面車企在智駕上的卷,還是會回歸到卷銷量上。只有越來越多的用户選擇智駕版,才能證明你的智駕功能是做得真的好用。如果用户都不選智駕版,即便真的做得很好,又如何來證明呢?
畢竟,智駕能力到底強不強,不是誰的嗓門大誰就強,還是需要拉出來遛遛才知道。(本文首發于钛媒體 App,作者|張敏)