端到端将重塑智駕？獲10億美金融資，解密英國AI獨角獸Wayve

今天小編分享的互聯網經驗：端到端将重塑智駕？獲10億美金融資，解密英國AI獨角獸Wayve，歡迎閲讀。

‍文 | HiEV 大蒜粒車研所，作者 | 張馬也，編輯 | 德新

就在前兩天，英國 AI 公司 Wayve 宣布獲得新一輪 10.5 億美元融資，投資方為軟銀、英偉達和現有投資人微軟，可以説是頂級豪華陣容。

作為一家英國公司，Wayve 這輪融資也創造了英國 AI 公司有史以來最大的單筆融資。甚至英國首相也在一份聲明中表示，它「鞏固了英國作為人工智能超級大國的地位」。

在通用人工智能領網域，Open.ai 在過去兩年成為全球頂級的熱門标的；而智能駕駛領網域，曾經獲得過 10 億美金級融資的公司不多，只有 Waymo、Argo、Cruise 等少數幾家。

Wayve 的巨額融資也勾起人們對于未來的強烈好奇：它有沒有可能成為智能駕駛領網域的 Open.ai，又或者説，成為端到端這代技術上的 Waymo/Cruise？

到目前為止，Wayve 已完成三輪融資，累計融資金額超過 13 億美元。除了資本大鳄和商業巨頭，有「深度學習三巨頭」美譽、現 Meta 首席人工智能科學家 Yann LeCun，也是 Wayve 的投資人。

Wayve 上一次引發關注是在不久前 3 月份，原 Mobileye 中國區的負責人 Erez Dagan 加入 Wayve 擔任總裁，主要負責產品、業務和戰略。

本輪融資後，Wayve 将加速推出首款用于量產車輛的自動駕駛軟體，包括 L2+ 智駕軟體以及實現完全自動駕駛的軟體系統。Erez 加入後，其重點關注的方向也是面向 OEM 的交付。據説，Wayve 正在與全球前幾大車廠商洽談合作。

自動駕駛 2.0：押注端到端

Wayve 由 Alex Kendall（聯創兼現任 CEO）和 Amar Shah（已離開）于 2017 年共同創立，兩為均來自劍橋大學。

其公司總部英國倫敦，目前約有 300 名左右的員工。

Wayve 稱自己是第一個在公共道路上，開發和測試端到端深度學習自動駕駛系統的公司。

2015 年，Alex Kendall 與 Vijay Badrinarayanan（現任 AI 副總裁）、Roberto Cipolla 等人，一起提出了 SegNet，這是第一個使用端到端深度學習進行語義分割的實時方法，無需高精地圖即可理解復雜環境。

從 2017 年開始，Wayve 就在汽車上對神經網絡強化學習的一些早期成果進行了應用。公司把這套系統在道路上進行了模拟部署，随後逐漸擴大規模，最終實現在倫敦市中心的交通環境下進行真實駕駛。

Wayve 将自己的智駕系統稱為AV2.0。

Wayve 認為，基于傳統機器學習方法的AV1.0架構，所面臨的根本問題是技術可擴展性。

因為它依賴復雜的傳感器、高精度地圖和手工編碼的規則，使得系統成本居高不下，在行為預測、規劃和處理長尾場景問題上，效果很難提升。

AV2.0 不依賴傳統的高清地圖和手工編碼的規則，而是專注于構建數據驅動的學習型駕駛系統，而且可以擴展、适應、推廣到系統從未見過的場景。

AV2.0 的特點如下：

采用端到端深度學習網絡架構；

無需高精地圖；

以安全為核心設計，符合行業安全期望；

傳感器靈活性，兼容純視覺到包括雷達和激光雷達的多種架構；

通過數據驅動進行泛化擴展；

在全球範圍内，經濟适用；

其中最重要的，就是端到端架構。

它抛棄傳統的「感知 - 規劃 - 執行」的架構，将車輛傳感器原始的輸入數據，直接轉換為駕駛操作輸出。

在行業内，端到端的方法已經得到了初步的驗證。特斯拉此前發布的 FSD v12，就采用了端到端架構。國内外很多用户試用過後，普遍的評價是，基本達到了人類駕駛的水準。

這種方法的核心是自我監督學習。就像大語言模型 LLM 預測下一個單詞一樣，駕駛系統可以從原始的、未标記的數據中進行無監督學習。

自動駕駛和大型語言模型之間有許多相似之處，從根本上講，它們都是大型的、高數據量的、復雜的決策問題。輸入模型的數據越多，AI 模型的特定應用就越豐富，越具有表現力，無需人工輸入即可對大量駕駛記錄進行訓練。

核心技術棧：解決可解釋性，建立人機信任

Wayve 為自動駕駛的迭代更新開發了一個快速、連續和無縫的學習循環系統 Fleet Learning Loop，不斷記錄數據、訓練模型、評估性能和部署更新的模型，以此循環。

在量產車隊中，它能從 OEM 的各種車輛中收集真實世界的駕駛數據，然後上傳到雲端處理，再将迭代後的模型部署到車端，更新車輛的自動駕駛功能。

Wayve 還一直在開發智能駕駛基礎模型（foundation model for driving）。該模型利用多模态數據，包括文本和非駕駛視頻源，來優化對駕駛環境的内部表征。

Wayve 認為，這能增強 AI 模型的駕駛能力，允許從不同來源交叉學習與駕駛相關的概念，并提高與駕駛任務目标的一致性。

簡單來説，就是通過從多個數據源學習，可以提高車輛對傳感器流中最有意義和可操作性的方面的理解，從而提高智能駕駛的流暢度和安全性。

除此之外，Wayve 還開發了 LINGO 和 GAIA 兩個模型，用來解決智駕場景的可解釋性和信任等問題。

行業内對端到端架構的其中一大擔憂是它是一個黑盒方案，其過程不可解釋。LINGO 能用自然語言描述自己的駕駛決策，并解釋決策的原因。

例如在行駛過程中，LINGO 做出了繞行路邊停靠車輛的判斷時，它可以向用户輸出判斷依據：由于交通堵塞，我正在緩慢靠近；我正在經過一輛停在路邊的車；因為前方道路暢通，所以我加速前進。

Wayve 在去年下半年推出過 LINGO-1，當時該模型以視覺和語言信息為輸入，但只能輸出語言結果。LINGO-2 的輸入和輸出都可以是視覺和語言信息，甚至也包括駕駛行為，也就是能控制車輛的行駛。

按官方説法，LINGO-2 是一種将視覺、語言和行動綜合起來，以解釋和确定駕駛行為的駕駛模型，是第一個在公開道路上測試的，閉環「視覺 - 語言 - 行動」駕駛模型（VLAM）。

LINGO-2 架構

LINGO-2 的亮點在于：通過語言提示，調整駕駛行為。

可以使用一些限定的導航命令，如「靠邊停車」、「右轉」等，讓 LINGO-2 調整車輛的行為。這也能幫助模型訓練，并且增強人車互動。

LINGO-2 在指令的要求下停車

LINGO-2 回答場景問題，并解釋駕駛操作

通過直接将語言和動作聯系起來，LINGO 可以一定程度上揭示出 AI 系統如何做出決策，使得自動駕駛模型不再是一個「黑盒子」。

更重要的是，LINGO 可以增強人類對智能駕駛系統的信任。

目前，LINGO-2 還只在 Ghost Gym 模拟器中進行了驗證，在現實世界中用語言控制汽車的行為是否可以可靠、安全地完成，還需要更多研究。

将世界模型融入駕駛模型

對于長尾場景，Wayve 給出的一個解決方法是 GAIA-1，一個為智能駕駛打造的生成式世界模型。

GAIA-1 架構

GAIA-1 首先是一個多模态生成模型，利用視頻、文本和動作輸入，生成逼真的駕駛場景視頻。它能夠對車輛的行為和其他基本場景特征，進行細粒度控制。無論是改變車輛的行為，還是修改整體場景，模型都能完成。

這樣，GAIA-1 可以作為仿真模拟中的重要一環，生成無限的數據，來訓練和驗證自動駕駛系統，解決極端場景，特别是在獲取真實世界數據成本高或風險大的情況下。

GAIA-1 可根據各種提示，生成駕駛場景

它還是一個真實的世界模型，可以學習、理解駕駛中的重要概念，比如什麼是卡車、公共汽車、行人、騎自行車的人、道路布局、建築物和交通信号燈。

所謂世界模型，是對環境及其未來動态的表征，能實現對周圍環境的結構化理解，就像人類對自己周圍的環境進行建模理解一樣。

将世界模型整合到駕駛模型中，使得自動駕駛車輛能夠預測未來事件，從而提前規劃行動，在復雜或未知的情況下做出更加明智的決策。

目前版本的 GAIA-1擁有超過 90 億個可訓練參數，訓練數據集包含了 2019 年至 2023 年在倫敦收集的 4700 小時的專有駕駛數據。模型可以預測視頻序列中的後續幀，從而在不需要任何标籤的情況下，實現自回歸預測能力。

邁向商業化量產

目前，Wayve 在商業化上的作為不多。

此前，它一直在英國生鮮配送公司 Ocado 的車上訓練模型，這家公司也是投資方之一，曾投資了 1360 萬美元。

據稱，Wayve 已經在全球 100 多個城市開始了系統測試。

本輪融資後，Wayve 将加速推出首款用于量產車輛的自動駕駛軟體，包括 L2+ 智駕系統，以及實現完全自動駕駛的軟體系統。

它也在與全球前幾大車廠商洽談合作，但具體名單未知。

原 Mobileye 中國區的負責人 Erez Dagan 加入 Wayve 擔任總裁，其重要的關注方向也是面向 OEM 的交付。Erez 在 Mobileye 工作了 20 年，是全世界第一款純視覺 ADAS 產品的創始團隊成員，後來擔任產品和戰略執行副總裁，并在 Mobileye 被收購後擔任英特爾集團副總裁。

聯系到此前馬斯克表示，特斯拉将于今年 8 月 8 日發布 Robotaxi，種種迹象似乎表明完全自動駕駛的技術路線正在逐漸清晰。

Wayve 的目标甚至不止于此。在最近 Techcrunch 的一次采訪中，Alex Kendall 説到，Wayve 的駕駛大模型不僅在駕駛數據上進行訓練，還對互聯網規模的文本和其他來源進行訓練，甚至使用英國政府的 PDF 文檔來訓練模型。

Wayve 正在構建具身 AI（Embodied AI）基礎模型，一個基于非常多樣化的數據進行訓練的通用系統，能夠在復雜的現實世界環境中感知、行動、學習和适應人類行為。智能駕駛只是這一系統目前最大的應用場景。