今天小編分享的科學經驗:對話任少卿:世界模型是自動駕駛與機器人的新範式,歡迎閱讀。
和任少卿的對話,是從最基本的一個智能駕駛使用場景開始的——
在北上廣城市快速路的限時段公交車道,智能駕駛系統如何能像人類一樣,限制的時間段避開,非限制時段高效利用?
在過去,AI 系統會嚴格按照人類寫好的規則駕駛。但現在,端到端自動駕駛模型的範式之下,手寫規則的方法開始被剔除,意味着 AI 系統需要自己去學習 " 限時公交車道 " 的特殊路況和場景,這需要時間,也可能短期内無法直接滿足需求。
所以是不是智能汽車業内業外,過于迷信 " 端到端 " 了?
自動駕駛作為一個綜合工程,為什麼要端到端?
端到端又為何會出現在此時此刻?其本質是什麼?
對智能汽車研發和車圈變革又會帶來怎樣的影響?
上述問題,沒有人比任少卿更有發言權了。他既是世界級 AI 科學家,深度學習經典成果 ResNet 作者之一,近十年來也躬身產業一線,見證和實踐自動駕駛技術從研發到上車,當前是蔚來智能駕駛副總裁、蔚來自動駕駛研發的負責人。
任少卿認為端到端是一種必然,類似造車會走向一體化的必然,有技術難度但不存在誰有獨家秘籍,甚至 " 被強調太多了 " ……在他分享的四大關鍵技術要素中,模型只是第一點——數據、優化機制和功能體驗,四位一體,缺一不可。
在他的視角裡,AI 也好,自動駕駛也好,這幾年有變化,但本質沒有變化。于是對于很多業内熱議的具體問題,他都有着從本質出發的回答。
以下是對話實錄:
聊端到端
量子位:端到端怎麼識别公交車道,實現按時段規避和利用?
任少卿:方法肯定很多,但如果要特别精确地識别,可能還要學習怎麼識别文字。
量子位:現在還不行?
任少卿:現在更多的是以歷史的經驗去看,歷史的經驗裡可能噪聲比較多。
什麼叫噪聲呢?現在的系統其實一部分是靠歷史的經驗,一部分是實際感知的結果。比如說旁邊如果有個車進到公交車道了,那系統可能考慮是不是也可以開進去;那如果旁邊的沒有車走進公交車道,那系統就也不會進去。那其實按交通規則是不應該開進公交車道的, 那這就是噪聲。
我覺得這确實是一個核心的點,怎麼去精準地識别,這個是需要去解決的。
量子位:這兩年大家都在聊端到端, 很多玩家 All In 進去。
假設沒那麼原教旨主義,就寫一條規則,告訴系統什麼時間能走公交車道,從而解決這個問題不是也挺好嗎?為什麼一定要把手寫的規則都剔除掉?
任少卿:舉個例子,比如說不同城市,北京(公交車道)可能相對來說還規則一些。大部分都是早上 7 點到 9 點,晚上 5-7 點在高峰期(不能走)。
再比如上海,上海延安路上是專門有一條給 71 路公交車行駛的車道的,在任何時間非 71 路是都不可以行駛的。而且這條車道還有專屬的交通信号燈,可能信号燈長得都和普通信号燈不一樣。
所以不同的城市對于 " 公交車道 " 是有各種各樣的規則和場景的,而且如果今天這個規則變化了,那怎麼弄?所以讓工程師針對每一個場景去寫一條規則得去搞,這個顯然很難搞定。
其實這種案例非常非常多。那為什麼原來大家都沒考慮走端到端呢?這個和功能和場景都有關系。
比如三五年前,大家都在高速 NOA 的時候,場景比較簡單。在高速上大部分的場景,就看前面三台車:
本車前面那台車,左邊車道一台車,右邊車道一台車,然後三輛車一起建模,寫個規則。雖然也得寫好幾萬行的代碼,但是它畢竟場景簡單。
那現在到了城區道路的領航輔助,還有我們 NIOIN 展示的、大家都在說的主動安全功能,那面對的是要處理各種各樣的復雜場景,如果一個一個規則去寫,這個顯然非常難。從根本上來說,第一個是效率的問題,第二個是效果的問題。
我覺得更好更拟人地去應對全面的、復雜的場景,是自動駕駛要搞端到端的核心原因。
如果我們跳出自動駕駛的領網域來看這個事兒,走向端到端技術還有一個原因,就是大家要做更統一的東西。
其實只有自動駕駛領網域的人才會說端到端和非端到端,别的 AI 應用領網域好像大家都不怎麼說。比如做語言模型的、做機器人的,大家基本聽不到說 " 今天我端到端了 " 這樣的描述。
自動駕駛的歷史比較長,在很多年前算法模型的能力沒有這麼強,大家更多把這件事情變成一個流水線。因為自動駕駛用自回歸模型用得比較早,早期開發比較初期,所以自動駕駛就有非端到端的架構。到了今天大家覺得模型性能提升了,就把它給整合起來。
就跟造車一樣,比如說壓鑄件,之前工藝沒現在先進,就抽成好多小塊,先造出來,然後再焊上。那現在有了一體壓鑄的機器和技術,而且很成熟了,從時間效率上就高了非常多。
所以說回到自動駕駛,端到端本質是用一個更統一的方式去提升計劃效率,包括時間的效率,包括人的效率。
再進一步說的話, 從 AI 的發展來看,其實深度學習也是這個邏輯。最近 10 到 15 年,所有 AI 算法的發展,包括應用,本質上就是兩件事:第一件事情是產生更好的效果,第二件事情是產生更好的泛化性。
第一件事情比較容易理解。原來一個任務,可能 AI 去執行效果差很多,比如說大家現在用得最多的是人臉識别,特别是通用的、對陌生人臉的識别,一開始 AI 沒有人做得好,後來跟人差不多,現在絕對比人識别要好。
AI 一步一步縮小和人的差距,然後做得比人更好,這是性能提升,是 AI 發展的第一個方向。
第二個發展方向,就是通用性。
比如說一個影像識别的算法,和物體檢測的算法,分别用來判斷一張圖是什麼類别和判斷這張圖裡面有什麼物體,開始都是不同的算法、不同的框架。那後來這倆影像和物體檢測就可以融合了,再後來所有影像類的任務基本上都融合了,可能後續說影像類的任務和語音類的任務也快融合了。
實際上是希望最後變成所有智能體的任務,自動駕駛開車也好,機器人走路也好,機器狗爬山也好,所有任務都是用同樣一套框架去做,這也是端到端之後要做的事情。
量子位:所以 Transformer 是一個很重要的變量,帶來了效果上或者是算法能力上的提升,還帶來了什麼?
任少卿:Transformer 在其中算是一個工具。
但是我想說 AI 的發展,實際上大家都在追求這兩件事情,今天如果沒有 Transformer,可能也會有其他的工具,但大家追求的這個方向實際上是沒有變的,就是想追求更好的效果和更通用的能力。回到我們剛才說的這個事情上,自動駕駛的端到端實際上是某種程度上在追求兩件事兒。
另外的就是什麼樣的框架,除了自動駕駛外,相關的所有的智能體或者類機器人的方向,都能用同樣的方式去解決。
這個是我覺得一定會有人去做,也是大家想做的事情。
量子位:現在用戶都會去關注,車企的智駕是不是端到端的系統。多少有點詭異,因為端到端這個的事情它更大的意義是在于研發,在于廠商本身,對于用戶其實沒有那麼大的意義。我不在乎我的這個車是不是端到端的系統,我覺得他能處理很多或體驗很好就行。
任少卿:我覺得這是一件挺有意思的事。
用戶願意去關注這些工作還挺好的。比如說好多使用語言模型的用戶,甚至開始關心這個模型怎麼訓練了。所以大家關心關心這事也挺好。尤其是對于早期使用的一些用戶來說,讨論的這些話題對他來說是有意思的,他才參與這個過程。
再往後大家也會随着整個行業的技術迭代去讨論其他更多的話題,當然這些技術迭代也會帶來一些新的體驗和產品形态。
量子位:端到端會給你們研發的流程帶來什麼樣改變?
任少卿:這其實是個模型化的事,大家現在可能過多地在關注研發流程、架構調整等等這些事情。但是模型化對于自動駕駛研發而言,絕對不是只是這半年的事。
自動駕駛最早可能 2013 年就開始用深度學習,然後逐漸地在增多比例。只是說可能大家最近談起的比較多,所以就多說一說了。
量子位:自動駕駛會不會犯類似 " 分不清 9.11 和 9.9 哪個大 " 的常識性錯誤?
任少卿:有的,其實是一樣的,語言模型裡面叫幻覺,自動駕駛就是大家一直在說的 Corner case,或者說誤檢,漏檢。
比如說,語言模型突然輸出了一句莫名其妙的話,那在自動駕駛的感知模型裡就是突然間有一幀沒了,或突然間蹦出來一個實際上不存在的東西,其實都是類似的。
那自動駕駛開始解決這個問題的時間,相對來說是比較早的。更多的就是通過時序的切割機制,通過校驗機制等去解決。
實際上像語言模型裡面管控承諾也是這樣, COT(思維鏈) 的一方面的邏輯實際上就是讓系統自我校驗:通過一個更復雜的輸出表達,然後自我去校驗。
現在也有像 MOE ,或者還有其他的一些方法,比如說實際應用端的和後端的校驗,都是同樣的邏輯,所以整體來說就是模型訓練,性能對齊,輸出一個跟人類偏好差不多東西。
還有就是有錯的問題,通過多次的校驗,用神經網絡,非神經網絡的方法,再加上一些人力規則的方法去校驗這個事情,把錯的東西挑出來變成正确的。
世界模型
量子位:進入系統的視頻數據,一方面是标注的真實數據,另外一方面就是世界模型的生成數據,有點像 LLM 中合成數據。
任少卿:如果要定義一個任務的話,最終要回答一個問題,這個問題就是你定義的任務有多通用。從自回歸的角度來說,定義的任務越通用,學術的角度上看意義越大,從應用的角度看也是一樣。
10 年前大家說計算機視覺領網域的三大基礎任務,影像分類,檢測和分割。去理解一個影像,能對它進行分類,進行提框,找出裡面的物體進行分割,這确實是根本任務。
但是到了今天,這個基礎任務的定義不夠了。我們需要一些更根本的問題。
語言問題定義的根本問題,是預測下一個 token,下一個詞。
實際上對視覺也是一樣。如果能定義一個更基礎、更根本的任務去解決問題,那在這上面找應用,它覆蓋的範圍就更廣更通用。
量子位:用視頻生成視頻,本質上也是對問題的窮舉?
任少卿:是的,作為一個基礎任務,最根本、最本質就是要定義這個東西。所以現在的定義就是,視頻去生成視頻這件事情更本質,因為它能包含所有的其他可能性。
輸出視頻是一個分類,把中間的物體摳出來,那它就是可以做物體檢測的任務。輸出的是一個分割的結果,就是可以做分割的任務。輸出的是一個三維重建,換個角度的結果,就可以做三維重建的任務。所以視頻生成視頻這件事情,實際上從問題的定義上來說是一個更根本的問題。
而且我們認為,重建是對于時空理解和對原始數據全面理解最深刻的表現形式。
因為基本上原來的信息量,都需要重構出來,才能去做中間的事情。
量子位:現在的世界模型和更早前的虛拟仿真,本質不同是什麼?
任少卿:虛拟仿真我覺得完全是一個另外的邏輯。這實際上是兩個方向,一個方向,我們說計算機視覺,一個方向是計算機圖形學。
其實是分别幹了兩件事,一個事情是理解世界,一個事情是再造世界,就是虛構一個視覺。但是最近兩年兩個方向也越來越近了。
總體上來說,完全地理解這個世界是世界模型要幹的事。
那現在也有一些用原始視頻的方式來仿真,但它本質上不是要完全理解這個事情。不是說給它一個輸入,就要把輸入完全理解,而是說要重構一個東西出來。但重構的東西不見得是這個世界的全部。所以仿真的問題是仿真不包含這個世界的全部信息。
比如說最早的仿真,拿遊戲來舉例,遊戲其實某種情況下就是仿真。最早的仿真就是像大家打紅白機遊戲,有(像素化)粗的信息,但是很多精細的東西是沒有的。所以仿真一直存在的問題,就是它不斷地逼近真實世界,但它離真實世界還有距離。
量子位:蔚來講世界模型的時候,用了類人腦的方式,将其劃抽成兩個部分,這是為了方便聽眾理解,還是系統本身就是劃抽成了兩塊?
任少卿:分這麼開是為了方便大家理解。實際上做的時候是耦合在一起做的,不是完全分開。
實際上我們講的時候,第一部分關于空間重構,其實也是重構成視頻。那重構成視頻,某種程度上裡面也包含時間的信息,只是說我們給大家講例子它不會那麼長。
那講第二部分時間認知的時候,我們更強調時間認知,想象推演的能力。那推演出來的結果時間長,變化多,但是實際上它是和第一部分空間重構的能力耦合在一起的。
量子位:對生成式 AI 關注多嗎?
任少卿:我覺得挺好,最近實際上變化很大呀。就是為什麼要去說世界模型這件事,為什麼會往這個方向走。
因為就是回到剛才那個話題,端到端、非端到端只是智能駕駛領網域的一個大家讨論的事。從技術角度來說,我們會想實際上從更大的範圍之内,那自動駕駛和機器人與大語言模型的融合會是什麼樣的方式?
量子位:世界模型,就是你們給出的一個方式。
任少卿:對,它是一個更貼近通用的一個方式,自動駕駛能用,之後機器人也能用。那語言模型,後面的原生規模也會是類似的框架。
當然其實還有更激進的方式,就融合所有網域,但是這個咱們就後面再說啦。
量子位:規模很宏大,會遇到工程問題嗎?
任少卿:會遇到很多工程問題,所以現在給大家講的世界模型,它會更貼近于下一個階段的機器人、自動駕駛,以及語言模型的基本框架。
量子位:什麼是世界模型的多元自回歸生成結構?
任少卿:其實這裡面的這三個東西,和大家實際上都在研發的語言模型,機器人框架,很類似。
裡邊有三個關鍵詞,從右往左說,第一個是生成,這個生成的方式,它有很多的優勢,不用标數據了,學習效率更高,所以語言模型早就已經是生成式的了。
那自回歸本質上可以解決長時序的問題,所以語言模型 long contents 也是類似的方式。自動駕駛和機器人要解決長時序的問題,也得用這種方式。
多元是什麼呢?多元就是這個 multivariable input 和 output ( 多模态輸入與輸出 ) ,本質上是要解決多數據源的問題,那之後自動駕駛想用互聯網的數據,或者互聯網想用更多領網域的數據,其實都要用類似的這種方式。
我們是希望通過這些框架,去打通跨領網域的事。
智能駕駛四大關鍵技術要素
量子位:現在都在做城區 NOA,但每一家最後呈現的體驗不同,你覺得是什麼因素決定的?
任少卿:可以認為大概四大因素吧:
第一是模型,第二是數據,第三是優化——模型總還是會出問題,出了問題之後怎麼用其他的方式、基于優化的方式去做聯動。
第四個是功能的多少,feature 有多少,實際上就是基于前面三塊,但也并不是完全相關。
所以第一點來說,模型的角度實際上就是我們這次所說的核心。每家其實會有不一樣,甚至說每家不一樣的點還不少,這是模型的角度。
第二個就是數據的角度,數據多還是少、頻率快還是慢。對于我們來說,蔚來的數據閉環,我覺得可能是全球最好。
第三,模型輸出的結果也會有問題,那處理的方式,導致的效果更好還是更差?怎麼能做到效果好,其實有兩點,一個是指不要誤殺模型輸出的好的結果,一個是指如果沒有誤殺模型的結果,模型做得不好的時候相對來說更絲滑:肯定不要出現這個模型前半段這麼開的,後半段就不是了,或者說後半段輸出的軌迹不平緩了。
就比如說,如果突然有個障礙物出現,系統打方向盤,雖然也沒撞牆、是做對了的,但是對用戶來說肯定體感不好,明顯有段落感,這種體驗就不好。那怎麼去做優化就是很重要的一件事。
第四個就是說基于以上,還能有什麼新的功能,從用戶體驗的角度來說,能不能做得更好。這就包括用戶使用情況的追蹤,跟用戶的互動等等。
總結來看,技術能不能做到在一個層級上,這個事情很重要。
某種程度上來說,模型根本上是為了提高效率。模型提升了上限,但是實際上它并不能保證它的下限一定在提高,它有可能下限在下降。
所以後面包括融合模型和優化方法,實際上就要保證下限能保持或者提得更高,同時又不降低效率。同時需要讓用戶用得好,需要讓用戶有更多可用、愛用的功能。
自動駕駛與機器人
量子位:現在好多機器人創業公司,說要打通虛拟世界跟物理世界,和打通不同領網域有什麼不一樣?
任少卿:那個是另外一個工程模型。
說打通不同領網域,實際是在說打通不同應用。就比如說自動駕駛和機器人、大語言模型這些技術的融合,就他得徹底用同樣一套框架去做。
其實大家很容易理解——實際上自動駕駛是一個特殊的 " 機器人 ",是所有機器人應用裡面最大的一個應用之一,也是目前價值最大的。其實大家發現說之前的自動駕駛,或者直到現在自動駕駛,為了做它的這個研發成本是非常非常高的。那大家現在都在深耕自動駕駛,因為它前期的商業場景是非常大的。
如果用目前自動駕駛的同一代技術棧去做機器人,可能沒有任何一個機器人的應用在當下能撐得起來這個投入。
但是我們認為說長期再往後走,自動駕駛也是個泛機器人領網域,所以那能不能用同樣一套框架、用更高的可共享度,然後用更低的成本去做所有的機器人,就泛機器人能力這個事情,我們覺得一定是能做的。
但要找到相應的技術,本質上前面說的這些世界模型,我們覺得我們自己的框架也能去做機器人。
量子位:暗示蔚來也能做機器人?
任少卿:主要是我覺得從技術的維度上來說,這件事情它基本就是這個路徑實現的。
那如果機器人探索出來它統一的框架,它一定能回來做自動駕駛。因為本身是很相似的,同時這些方式肯定都是要用大量的數據的。
那在自動駕駛上把這樣的一套充分認知的框架,做出來的可能性更大,因為它的數據量更大了。
做機器人來說,我覺得還是要分三層,我們認為它實際上有三層的能力,第一層能力叫做概念認知,第二層叫時空認知,第三層叫做運動的,或者說叫互動。
第一層的概念認知實際上就是大于模型解讀,第二層的時空認知就是剛才我們說的這些。第三層的運動能力從某種程度上看,就是怎麼去控制輪子,怎麼去控制腿,怎麼去用某一只手,或者怎麼去拿一個工具或者物品,拿起工具來了又要去把它用起來。但是通用來說我們說道的第二層的能力,就是這個時空認知的能力,是一個很通用的能力。
量子位:如何看待這幾年整個產業的變化?
任少卿:其實我覺得在整個產業上,從技術的角度來說,自動駕駛前面幾年技術都沒什麼特别大的變化,最近這半年一年倒是變化挺大。很多的變化本質也并不來自于自動駕駛領網域,更多源于我們前面說的這些 AI 科技在其他領網域上的發展。
量子位:可能最後還是會追求變成一個通用的模型,打造一個像人一樣的這種智能體?
任少卿:是這樣的,剩下的問題是怎麼把它打造出來。AI 通用模型和機器人等類型的科技交叉越來越多,所以我覺得做智能駕駛也不能只關注智能駕駛。