對話任少卿：世界模型是自動駕駛與機器人的新範式

今天小編分享的科學經驗：對話任少卿：世界模型是自動駕駛與機器人的新範式，歡迎閱讀。

和任少卿的對話，是從最基本的一個智能駕駛使用場景開始的——

在北上廣城市快速路的限時段公交車道，智能駕駛系統如何能像人類一樣，限制的時間段避開，非限制時段高效利用？

在過去，AI 系統會嚴格按照人類寫好的規則駕駛。但現在，端到端自動駕駛模型的範式之下，手寫規則的方法開始被剔除，意味着 AI 系統需要自己去學習 " 限時公交車道 " 的特殊路況和場景，這需要時間，也可能短期内無法直接滿足需求。

所以是不是智能汽車業内業外，過于迷信 " 端到端 " 了？

自動駕駛作為一個綜合工程，為什麼要端到端？

端到端又為何會出現在此時此刻？其本質是什麼？

對智能汽車研發和車圈變革又會帶來怎樣的影響？

上述問題，沒有人比任少卿更有發言權了。他既是世界級 AI 科學家，深度學習經典成果 ResNet 作者之一，近十年來也躬身產業一線，見證和實踐自動駕駛技術從研發到上車，當前是蔚來智能駕駛副總裁、蔚來自動駕駛研發的負責人。

任少卿認為端到端是一種必然，類似造車會走向一體化的必然，有技術難度但不存在誰有獨家秘籍，甚至 " 被強調太多了 " ……在他分享的四大關鍵技術要素中，模型只是第一點——數據、優化機制和功能體驗，四位一體，缺一不可。

在他的視角裡，AI 也好，自動駕駛也好，這幾年有變化，但本質沒有變化。于是對于很多業内熱議的具體問題，他都有着從本質出發的回答。

以下是對話實錄：

聊端到端

量子位：端到端怎麼識别公交車道，實現按時段規避和利用？

任少卿：方法肯定很多，但如果要特别精确地識别，可能還要學習怎麼識别文字。

量子位：現在還不行？

任少卿：現在更多的是以歷史的經驗去看，歷史的經驗裡可能噪聲比較多。

什麼叫噪聲呢？現在的系統其實一部分是靠歷史的經驗，一部分是實際感知的結果。比如說旁邊如果有個車進到公交車道了，那系統可能考慮是不是也可以開進去；那如果旁邊的沒有車走進公交車道，那系統就也不會進去。那其實按交通規則是不應該開進公交車道的，那這就是噪聲。

我覺得這确實是一個核心的點，怎麼去精準地識别，這個是需要去解決的。

量子位：這兩年大家都在聊端到端，很多玩家 All In 進去。

假設沒那麼原教旨主義，就寫一條規則，告訴系統什麼時間能走公交車道，從而解決這個問題不是也挺好嗎？為什麼一定要把手寫的規則都剔除掉？

任少卿：舉個例子，比如說不同城市，北京（公交車道）可能相對來說還規則一些。大部分都是早上 7 點到 9 點，晚上 5-7 點在高峰期（不能走）。

再比如上海，上海延安路上是專門有一條給 71 路公交車行駛的車道的，在任何時間非 71 路是都不可以行駛的。而且這條車道還有專屬的交通信号燈，可能信号燈長得都和普通信号燈不一樣。

所以不同的城市對于 " 公交車道 " 是有各種各樣的規則和場景的，而且如果今天這個規則變化了，那怎麼弄？所以讓工程師針對每一個場景去寫一條規則得去搞，這個顯然很難搞定。

其實這種案例非常非常多。那為什麼原來大家都沒考慮走端到端呢？這個和功能和場景都有關系。

比如三五年前，大家都在高速 NOA 的時候，場景比較簡單。在高速上大部分的場景，就看前面三台車：

本車前面那台車，左邊車道一台車，右邊車道一台車，然後三輛車一起建模，寫個規則。雖然也得寫好幾萬行的代碼，但是它畢竟場景簡單。

那現在到了城區道路的領航輔助，還有我們 NIOIN 展示的、大家都在說的主動安全功能，那面對的是要處理各種各樣的復雜場景，如果一個一個規則去寫，這個顯然非常難。從根本上來說，第一個是效率的問題，第二個是效果的問題。

我覺得更好更拟人地去應對全面的、復雜的場景，是自動駕駛要搞端到端的核心原因。

如果我們跳出自動駕駛的領網域來看這個事兒，走向端到端技術還有一個原因，就是大家要做更統一的東西。

其實只有自動駕駛領網域的人才會說端到端和非端到端，别的 AI 應用領網域好像大家都不怎麼說。比如做語言模型的、做機器人的，大家基本聽不到說 " 今天我端到端了 " 這樣的描述。

自動駕駛的歷史比較長，在很多年前算法模型的能力沒有這麼強，大家更多把這件事情變成一個流水線。因為自動駕駛用自回歸模型用得比較早，早期開發比較初期，所以自動駕駛就有非端到端的架構。到了今天大家覺得模型性能提升了，就把它給整合起來。

就跟造車一樣，比如說壓鑄件，之前工藝沒現在先進，就抽成好多小塊，先造出來，然後再焊上。那現在有了一體壓鑄的機器和技術，而且很成熟了，從時間效率上就高了非常多。

所以說回到自動駕駛，端到端本質是用一個更統一的方式去提升計劃效率，包括時間的效率，包括人的效率。

再進一步說的話，從 AI 的發展來看，其實深度學習也是這個邏輯。最近 10 到 15 年，所有 AI 算法的發展，包括應用，本質上就是兩件事：第一件事情是產生更好的效果，第二件事情是產生更好的泛化性。

第一件事情比較容易理解。原來一個任務，可能 AI 去執行效果差很多，比如說大家現在用得最多的是人臉識别，特别是通用的、對陌生人臉的識别，一開始 AI 沒有人做得好，後來跟人差不多，現在絕對比人識别要好。

AI 一步一步縮小和人的差距，然後做得比人更好，這是性能提升，是 AI 發展的第一個方向。

第二個發展方向，就是通用性。

比如說一個影像識别的算法，和物體檢測的算法，分别用來判斷一張圖是什麼類别和判斷這張圖裡面有什麼物體，開始都是不同的算法、不同的框架。那後來這倆影像和物體檢測就可以融合了，再後來所有影像類的任務基本上都融合了，可能後續說影像類的任務和語音類的任務也快融合了。

實際上是希望最後變成所有智能體的任務，自動駕駛開車也好，機器人走路也好，機器狗爬山也好，所有任務都是用同樣一套框架去做，這也是端到端之後要做的事情。

量子位：所以 Transformer 是一個很重要的變量，帶來了效果上或者是算法能力上的提升，還帶來了什麼？

任少卿：Transformer 在其中算是一個工具。

但是我想說 AI 的發展，實際上大家都在追求這兩件事情，今天如果沒有 Transformer，可能也會有其他的工具，但大家追求的這個方向實際上是沒有變的，就是想追求更好的效果和更通用的能力。回到我們剛才說的這個事情上，自動駕駛的端到端實際上是某種程度上在追求兩件事兒。

另外的就是什麼樣的框架，除了自動駕駛外，相關的所有的智能體或者類機器人的方向，都能用同樣的方式去解決。

這個是我覺得一定會有人去做，也是大家想做的事情。

量子位：現在用戶都會去關注，車企的智駕是不是端到端的系統。多少有點詭異，因為端到端這個的事情它更大的意義是在于研發，在于廠商本身，對于用戶其實沒有那麼大的意義。我不在乎我的這個車是不是端到端的系統，我覺得他能處理很多或體驗很好就行。

任少卿：我覺得這是一件挺有意思的事。

用戶願意去關注這些工作還挺好的。比如說好多使用語言模型的用戶，甚至開始關心這個模型怎麼訓練了。所以大家關心關心這事也挺好。尤其是對于早期使用的一些用戶來說，讨論的這些話題對他來說是有意思的，他才參與這個過程。

再往後大家也會随着整個行業的技術迭代去讨論其他更多的話題，當然這些技術迭代也會帶來一些新的體驗和產品形态。

量子位：端到端會給你們研發的流程帶來什麼樣改變？

任少卿：這其實是個模型化的事，大家現在可能過多地在關注研發流程、架構調整等等這些事情。但是模型化對于自動駕駛研發而言，絕對不是只是這半年的事。

自動駕駛最早可能 2013 年就開始用深度學習，然後逐漸地在增多比例。只是說可能大家最近談起的比較多，所以就多說一說了。

量子位：自動駕駛會不會犯類似 " 分不清 9.11 和 9.9 哪個大 " 的常識性錯誤？

任少卿：有的，其實是一樣的，語言模型裡面叫幻覺，自動駕駛就是大家一直在說的 Corner case，或者說誤檢，漏檢。

比如說，語言模型突然輸出了一句莫名其妙的話，那在自動駕駛的感知模型裡就是突然間有一幀沒了，或突然間蹦出來一個實際上不存在的東西，其實都是類似的。

那自動駕駛開始解決這個問題的時間，相對來說是比較早的。更多的就是通過時序的切割機制，通過校驗機制等去解決。

實際上像語言模型裡面管控承諾也是這樣， COT（思維鏈）的一方面的邏輯實際上就是讓系統自我校驗：通過一個更復雜的輸出表達，然後自我去校驗。

現在也有像 MOE ，或者還有其他的一些方法，比如說實際應用端的和後端的校驗，都是同樣的邏輯，所以整體來說就是模型訓練，性能對齊，輸出一個跟人類偏好差不多東西。

還有就是有錯的問題，通過多次的校驗，用神經網絡，非神經網絡的方法，再加上一些人力規則的方法去校驗這個事情，把錯的東西挑出來變成正确的。

世界模型

量子位：進入系統的視頻數據，一方面是标注的真實數據，另外一方面就是世界模型的生成數據，有點像 LLM 中合成數據。

任少卿：如果要定義一個任務的話，最終要回答一個問題，這個問題就是你定義的任務有多通用。從自回歸的角度來說，定義的任務越通用，學術的角度上看意義越大，從應用的角度看也是一樣。

10 年前大家說計算機視覺領網域的三大基礎任務，影像分類，檢測和分割。去理解一個影像，能對它進行分類，進行提框，找出裡面的物體進行分割，這确實是根本任務。

但是到了今天，這個基礎任務的定義不夠了。我們需要一些更根本的問題。

語言問題定義的根本問題，是預測下一個 token，下一個詞。

實際上對視覺也是一樣。如果能定義一個更基礎、更根本的任務去解決問題，那在這上面找應用，它覆蓋的範圍就更廣更通用。

量子位：用視頻生成視頻，本質上也是對問題的窮舉？

任少卿：是的，作為一個基礎任務，最根本、最本質就是要定義這個東西。所以現在的定義就是，視頻去生成視頻這件事情更本質，因為它能包含所有的其他可能性。

輸出視頻是一個分類，把中間的物體摳出來，那它就是可以做物體檢測的任務。輸出的是一個分割的結果，就是可以做分割的任務。輸出的是一個三維重建，換個角度的結果，就可以做三維重建的任務。所以視頻生成視頻這件事情，實際上從問題的定義上來說是一個更根本的問題。

而且我們認為，重建是對于時空理解和對原始數據全面理解最深刻的表現形式。

因為基本上原來的信息量，都需要重構出來，才能去做中間的事情。

量子位：現在的世界模型和更早前的虛拟仿真，本質不同是什麼？

任少卿：虛拟仿真我覺得完全是一個另外的邏輯。這實際上是兩個方向，一個方向，我們說計算機視覺，一個方向是計算機圖形學。

其實是分别幹了兩件事，一個事情是理解世界，一個事情是再造世界，就是虛構一個視覺。但是最近兩年兩個方向也越來越近了。

總體上來說，完全地理解這個世界是世界模型要幹的事。

那現在也有一些用原始視頻的方式來仿真，但它本質上不是要完全理解這個事情。不是說給它一個輸入，就要把輸入完全理解，而是說要重構一個東西出來。但重構的東西不見得是這個世界的全部。所以仿真的問題是仿真不包含這個世界的全部信息。

比如說最早的仿真，拿遊戲來舉例，遊戲其實某種情況下就是仿真。最早的仿真就是像大家打紅白機遊戲，有（像素化）粗的信息，但是很多精細的東西是沒有的。所以仿真一直存在的問題，就是它不斷地逼近真實世界，但它離真實世界還有距離。

量子位：蔚來講世界模型的時候，用了類人腦的方式，将其劃抽成兩個部分，這是為了方便聽眾理解，還是系統本身就是劃抽成了兩塊？

任少卿：分這麼開是為了方便大家理解。實際上做的時候是耦合在一起做的，不是完全分開。

實際上我們講的時候，第一部分關于空間重構，其實也是重構成視頻。那重構成視頻，某種程度上裡面也包含時間的信息，只是說我們給大家講例子它不會那麼長。

那講第二部分時間認知的時候，我們更強調時間認知，想象推演的能力。那推演出來的結果時間長，變化多，但是實際上它是和第一部分空間重構的能力耦合在一起的。

量子位：對生成式 AI 關注多嗎？

任少卿：我覺得挺好，最近實際上變化很大呀。就是為什麼要去說世界模型這件事，為什麼會往這個方向走。

因為就是回到剛才那個話題，端到端、非端到端只是智能駕駛領網域的一個大家讨論的事。從技術角度來說，我們會想實際上從更大的範圍之内，那自動駕駛和機器人與大語言模型的融合會是什麼樣的方式？

量子位：世界模型，就是你們給出的一個方式。

任少卿：對，它是一個更貼近通用的一個方式，自動駕駛能用，之後機器人也能用。那語言模型，後面的原生規模也會是類似的框架。

當然其實還有更激進的方式，就融合所有網域，但是這個咱們就後面再說啦。

量子位：規模很宏大，會遇到工程問題嗎？

任少卿：會遇到很多工程問題，所以現在給大家講的世界模型，它會更貼近于下一個階段的機器人、自動駕駛，以及語言模型的基本框架。

量子位：什麼是世界模型的多元自回歸生成結構？

任少卿：其實這裡面的這三個東西，和大家實際上都在研發的語言模型，機器人框架，很類似。

裡邊有三個關鍵詞，從右往左說，第一個是生成，這個生成的方式，它有很多的優勢，不用标數據了，學習效率更高，所以語言模型早就已經是生成式的了。

那自回歸本質上可以解決長時序的問題，所以語言模型 long contents 也是類似的方式。自動駕駛和機器人要解決長時序的問題，也得用這種方式。

多元是什麼呢？多元就是這個 multivariable input 和 output ( 多模态輸入與輸出 ) ，本質上是要解決多數據源的問題，那之後自動駕駛想用互聯網的數據，或者互聯網想用更多領網域的數據，其實都要用類似的這種方式。

我們是希望通過這些框架，去打通跨領網域的事。

智能駕駛四大關鍵技術要素

量子位：現在都在做城區 NOA，但每一家最後呈現的體驗不同，你覺得是什麼因素決定的？

任少卿：可以認為大概四大因素吧：

第一是模型，第二是數據，第三是優化——模型總還是會出問題，出了問題之後怎麼用其他的方式、基于優化的方式去做聯動。

第四個是功能的多少，feature 有多少，實際上就是基于前面三塊，但也并不是完全相關。

所以第一點來說，模型的角度實際上就是我們這次所說的核心。每家其實會有不一樣，甚至說每家不一樣的點還不少，這是模型的角度。

第二個就是數據的角度，數據多還是少、頻率快還是慢。對于我們來說，蔚來的數據閉環，我覺得可能是全球最好。

第三，模型輸出的結果也會有問題，那處理的方式，導致的效果更好還是更差？怎麼能做到效果好，其實有兩點，一個是指不要誤殺模型輸出的好的結果，一個是指如果沒有誤殺模型的結果，模型做得不好的時候相對來說更絲滑：肯定不要出現這個模型前半段這麼開的，後半段就不是了，或者說後半段輸出的軌迹不平緩了。

就比如說，如果突然有個障礙物出現，系統打方向盤，雖然也沒撞牆、是做對了的，但是對用戶來說肯定體感不好，明顯有段落感，這種體驗就不好。那怎麼去做優化就是很重要的一件事。

第四個就是說基于以上，還能有什麼新的功能，從用戶體驗的角度來說，能不能做得更好。這就包括用戶使用情況的追蹤，跟用戶的互動等等。

總結來看，技術能不能做到在一個層級上，這個事情很重要。

某種程度上來說，模型根本上是為了提高效率。模型提升了上限，但是實際上它并不能保證它的下限一定在提高，它有可能下限在下降。

所以後面包括融合模型和優化方法，實際上就要保證下限能保持或者提得更高，同時又不降低效率。同時需要讓用戶用得好，需要讓用戶有更多可用、愛用的功能。

自動駕駛與機器人

量子位：現在好多機器人創業公司，說要打通虛拟世界跟物理世界，和打通不同領網域有什麼不一樣？

任少卿：那個是另外一個工程模型。

說打通不同領網域，實際是在說打通不同應用。就比如說自動駕駛和機器人、大語言模型這些技術的融合，就他得徹底用同樣一套框架去做。

其實大家很容易理解——實際上自動駕駛是一個特殊的 " 機器人 "，是所有機器人應用裡面最大的一個應用之一，也是目前價值最大的。其實大家發現說之前的自動駕駛，或者直到現在自動駕駛，為了做它的這個研發成本是非常非常高的。那大家現在都在深耕自動駕駛，因為它前期的商業場景是非常大的。

如果用目前自動駕駛的同一代技術棧去做機器人，可能沒有任何一個機器人的應用在當下能撐得起來這個投入。

但是我們認為說長期再往後走，自動駕駛也是個泛機器人領網域，所以那能不能用同樣一套框架、用更高的可共享度，然後用更低的成本去做所有的機器人，就泛機器人能力這個事情，我們覺得一定是能做的。

但要找到相應的技術，本質上前面說的這些世界模型，我們覺得我們自己的框架也能去做機器人。

量子位：暗示蔚來也能做機器人？

任少卿：主要是我覺得從技術的維度上來說，這件事情它基本就是這個路徑實現的。

那如果機器人探索出來它統一的框架，它一定能回來做自動駕駛。因為本身是很相似的，同時這些方式肯定都是要用大量的數據的。

那在自動駕駛上把這樣的一套充分認知的框架，做出來的可能性更大，因為它的數據量更大了。

做機器人來說，我覺得還是要分三層，我們認為它實際上有三層的能力，第一層能力叫做概念認知，第二層叫時空認知，第三層叫做運動的，或者說叫互動。

第一層的概念認知實際上就是大于模型解讀，第二層的時空認知就是剛才我們說的這些。第三層的運動能力從某種程度上看，就是怎麼去控制輪子，怎麼去控制腿，怎麼去用某一只手，或者怎麼去拿一個工具或者物品，拿起工具來了又要去把它用起來。但是通用來說我們說道的第二層的能力，就是這個時空認知的能力，是一個很通用的能力。

量子位：如何看待這幾年整個產業的變化？

任少卿：其實我覺得在整個產業上，從技術的角度來說，自動駕駛前面幾年技術都沒什麼特别大的變化，最近這半年一年倒是變化挺大。很多的變化本質也并不來自于自動駕駛領網域，更多源于我們前面說的這些 AI 科技在其他領網域上的發展。

量子位：可能最後還是會追求變成一個通用的模型，打造一個像人一樣的這種智能體？

任少卿：是這樣的，剩下的問題是怎麼把它打造出來。AI 通用模型和機器人等類型的科技交叉越來越多，所以我覺得做智能駕駛也不能只關注智能駕駛。