今天小編分享的互聯網經驗:端到端将重塑智駕?獲10億美金融資,解密英國AI獨角獸Wayve,歡迎閲讀。
文 | HiEV 大蒜粒車研所,作者 | 張馬也,編輯 | 德新
就在前兩天,英國 AI 公司 Wayve 宣布獲得新一輪 10.5 億美元融資,投資方為軟銀、英偉達和現有投資人微軟,可以説是頂級豪華陣容。
作為一家英國公司,Wayve 這輪融資也創造了英國 AI 公司有史以來最大的單筆融資。甚至英國首相也在一份聲明中表示,它「鞏固了英國作為人工智能超級大國的地位」。
在通用人工智能領網域,Open.ai 在過去兩年成為全球頂級的熱門标的;而智能駕駛領網域,曾經獲得過 10 億美金級融資的公司不多,只有 Waymo、Argo、Cruise 等少數幾家。
Wayve 的巨額融資也勾起人們對于未來的強烈好奇:它有沒有可能成為智能駕駛領網域的 Open.ai,又或者説,成為端到端這代技術上的 Waymo/Cruise?
到目前為止,Wayve 已完成三輪融資,累計融資金額超過 13 億美元。除了資本大鳄和商業巨頭,有「深度學習三巨頭」美譽、現 Meta 首席人工智能科學家 Yann LeCun,也是 Wayve 的投資人。
Wayve 上一次引發關注是在不久前 3 月份,原 Mobileye 中國區的負責人 Erez Dagan 加入 Wayve 擔任總裁,主要負責產品、業務和戰略。
本輪融資後,Wayve 将加速推出首款用于量產車輛的自動駕駛軟體,包括 L2+ 智駕軟體以及實現完全自動駕駛的軟體系統。Erez 加入後,其重點關注的方向也是面向 OEM 的交付。據説,Wayve 正在與全球前幾大車廠商洽談合作。
自動駕駛 2.0:押注端到端
Wayve 由 Alex Kendall(聯創兼現任 CEO)和 Amar Shah(已離開)于 2017 年共同創立,兩為均來自劍橋大學。
其公司總部英國倫敦,目前約有 300 名左右的員工。
Wayve 稱自己是第一個在公共道路上,開發和測試端到端深度學習自動駕駛系統的公司。
2015 年,Alex Kendall 與 Vijay Badrinarayanan(現任 AI 副總裁)、Roberto Cipolla 等人,一起提出了 SegNet,這是第一個使用端到端深度學習進行語義分割的實時方法,無需高精地圖即可理解復雜環境。
從 2017 年開始,Wayve 就在汽車上對神經網絡強化學習的一些早期成果進行了應用。公司把這套系統在道路上進行了模拟部署,随後逐漸擴大規模,最終實現在倫敦市中心的交通環境下進行真實駕駛。
Wayve 将自己的智駕系統稱為AV2.0。
Wayve 認為,基于傳統機器學習方法的AV1.0架構,所面臨的根本問題是技術可擴展性。
因為它依賴復雜的傳感器、高精度地圖和手工編碼的規則,使得系統成本居高不下,在行為預測、規劃和處理長尾場景問題上,效果很難提升。
AV2.0 不依賴傳統的高清地圖和手工編碼的規則,而是專注于構建數據驅動的學習型駕駛系統,而且可以擴展、适應、推廣到系統從未見過的場景。
AV2.0 的特點如下:
采用端到端深度學習網絡架構;
無需高精地圖;
以安全為核心設計,符合行業安全期望;
傳感器靈活性,兼容純視覺到包括雷達和激光雷達的多種架構;
通過數據驅動進行泛化擴展;
在全球範圍内,經濟适用;
其中最重要的,就是端到端架構。
它抛棄傳統的「感知 - 規劃 - 執行」的架構,将車輛傳感器原始的輸入數據,直接轉換為駕駛操作輸出。
在行業内,端到端的方法已經得到了初步的驗證。特斯拉此前發布的 FSD v12,就采用了端到端架構。國内外很多用户試用過後,普遍的評價是,基本達到了人類駕駛的水準。
這種方法的核心是自我監督學習。就像大語言模型 LLM 預測下一個單詞一樣,駕駛系統可以從原始的、未标記的數據中進行無監督學習。
自動駕駛和大型語言模型之間有許多相似之處,從根本上講,它們都是大型的、高數據量的、復雜的決策問題。輸入模型的數據越多,AI 模型的特定應用就越豐富,越具有表現力,無需人工輸入即可對大量駕駛記錄進行訓練。
核心技術棧:解決可解釋性,建立人機信任
Wayve 為自動駕駛的迭代更新開發了一個快速、連續和無縫的學習循環系統 Fleet Learning Loop,不斷記錄數據、訓練模型、評估性能和部署更新的模型,以此循環。
在量產車隊中,它能從 OEM 的各種車輛中收集真實世界的駕駛數據,然後上傳到雲端處理,再将迭代後的模型部署到車端,更新車輛的自動駕駛功能。
Wayve 還一直在開發智能駕駛基礎模型(foundation model for driving)。該模型利用多模态數據,包括文本和非駕駛視頻源,來優化對駕駛環境的内部表征。
Wayve 認為,這能增強 AI 模型的駕駛能力,允許從不同來源交叉學習與駕駛相關的概念,并提高與駕駛任務目标的一致性。
簡單來説,就是通過從多個數據源學習,可以提高車輛對傳感器流中最有意義和可操作性的方面的理解,從而提高智能駕駛的流暢度和安全性。
除此之外,Wayve 還開發了 LINGO 和 GAIA 兩個模型,用來解決智駕場景的可解釋性和信任等問題。
行業内對端到端架構的其中一大擔憂是它是一個黑盒方案,其過程不可解釋。LINGO 能用自然語言描述自己的駕駛決策,并解釋決策的原因。
例如在行駛過程中,LINGO 做出了繞行路邊停靠車輛的判斷時,它可以向用户輸出判斷依據:由于交通堵塞,我正在緩慢靠近;我正在經過一輛停在路邊的車;因為前方道路暢通,所以我加速前進。
Wayve 在去年下半年推出過 LINGO-1,當時該模型以視覺和語言信息為輸入,但只能輸出語言結果。LINGO-2 的輸入和輸出都可以是視覺和語言信息,甚至也包括駕駛行為,也就是能控制車輛的行駛。
按官方説法,LINGO-2 是一種将視覺、語言和行動綜合起來,以解釋和确定駕駛行為的駕駛模型,是第一個在公開道路上測試的,閉環「視覺 - 語言 - 行動」駕駛模型(VLAM)。
LINGO-2 架構
LINGO-2 的亮點在于:通過語言提示,調整駕駛行為。
可以使用一些限定的導航命令,如「靠邊停車」、「右轉」等,讓 LINGO-2 調整車輛的行為。這也能幫助模型訓練,并且增強人車互動。
LINGO-2 在指令的要求下停車
LINGO-2 回答場景問題,并解釋駕駛操作
通過直接将語言和動作聯系起來,LINGO 可以一定程度上揭示出 AI 系統如何做出決策,使得自動駕駛模型不再是一個「黑盒子」。
更重要的是,LINGO 可以增強人類對智能駕駛系統的信任。
目前,LINGO-2 還只在 Ghost Gym 模拟器中進行了驗證,在現實世界中用語言控制汽車的行為是否可以可靠、安全地完成,還需要更多研究。
将世界模型融入駕駛模型
對于長尾場景,Wayve 給出的一個解決方法是 GAIA-1,一個為智能駕駛打造的生成式世界模型。
GAIA-1 架構
GAIA-1 首先是一個多模态生成模型,利用視頻、文本和動作輸入,生成逼真的駕駛場景視頻。它能夠對車輛的行為和其他基本場景特征,進行細粒度控制。無論是改變車輛的行為,還是修改整體場景,模型都能完成。
這樣,GAIA-1 可以作為仿真模拟中的重要一環,生成無限的數據,來訓練和驗證自動駕駛系統,解決極端場景,特别是在獲取真實世界數據成本高或風險大的情況下。
GAIA-1 可根據各種提示,生成駕駛場景
它還是一個真實的世界模型,可以學習、理解駕駛中的重要概念,比如什麼是卡車、公共汽車、行人、騎自行車的人、道路布局、建築物和交通信号燈。
所謂世界模型,是對環境及其未來動态的表征,能實現對周圍環境的結構化理解,就像人類對自己周圍的環境進行建模理解一樣。
将世界模型整合到駕駛模型中,使得自動駕駛車輛能夠預測未來事件,從而提前規劃行動,在復雜或未知的情況下做出更加明智的決策。
目前版本的 GAIA-1擁有超過 90 億個可訓練參數,訓練數據集包含了 2019 年至 2023 年在倫敦收集的 4700 小時的專有駕駛數據。模型可以預測視頻序列中的後續幀,從而在不需要任何标籤的情況下,實現自回歸預測能力。
邁向商業化量產
目前,Wayve 在商業化上的作為不多。
此前,它一直在英國生鮮配送公司 Ocado 的車上訓練模型,這家公司也是投資方之一,曾投資了 1360 萬美元。
據稱,Wayve 已經在全球 100 多個城市開始了系統測試。
本輪融資後,Wayve 将加速推出首款用于量產車輛的自動駕駛軟體,包括 L2+ 智駕系統,以及實現完全自動駕駛的軟體系統。
它也在與全球前幾大車廠商洽談合作,但具體名單未知。
原 Mobileye 中國區的負責人 Erez Dagan 加入 Wayve 擔任總裁,其重要的關注方向也是面向 OEM 的交付。Erez 在 Mobileye 工作了 20 年,是全世界第一款純視覺 ADAS 產品的創始團隊成員,後來擔任產品和戰略執行副總裁,并在 Mobileye 被收購後擔任英特爾集團副總裁。
聯系到此前馬斯克表示,特斯拉将于今年 8 月 8 日發布 Robotaxi,種種迹象似乎表明完全自動駕駛的技術路線正在逐漸清晰。
Wayve 的目标甚至不止于此。在最近 Techcrunch 的一次采訪中,Alex Kendall 説到,Wayve 的駕駛大模型不僅在駕駛數據上進行訓練,還對互聯網規模的文本和其他來源進行訓練,甚至使用英國政府的 PDF 文檔來訓練模型。
Wayve 正在構建具身 AI(Embodied AI)基礎模型,一個基于非常多樣化的數據進行訓練的通用系統,能夠在復雜的現實世界環境中感知、行動、學習和适應人類行為。智能駕駛只是這一系統目前最大的應用場景。