今天小編分享的科技經驗:蘋果自動駕駛新進展:36塊錢訓練百萬公裏數據,10天跑完16億公裏,歡迎閲讀。
車東西
作者 | Janson
編輯 | 志豪
一天訓練 950 年駕駛經驗,蘋果讓自動駕駛自己 " 修仙 "。
車東西 2 月 24 日消息,日前,蘋果在機器學習研究頁面公布了一項其在自動駕駛領網域最新的研究論文。
▲蘋果自動駕駛前沿進展在 Apple 官網
該論文的創新之處在于提出了一種全新的大規模自博弈強化學習框架 GIGAFLOW,并證明其能夠有效訓練出通用且具備魯棒性的駕駛策略。
數據顯示,通過這一套自監督訓練體系,每 10 天即可完成 16 億公裏的訓練,等效約 9500 年的駕駛經驗,換算成一天就相當于 1.6 億公裏和 950 年駕駛經驗。
而這樣的訓練,成本控制也十分突出,每百萬公裏的模拟成本低于 5 美元(約合人民币 36.1 元),且不需要真實世界數據。
這項研究的公布也證明了蘋果即使在放棄了造車之後,也還沒有完全停止對于汽車行業的關注,或許未來蘋果也會在自動駕駛領網域拿出令人震驚的新產品。
蘋果造車歷程始于 2008 年喬布斯親自啓動的 " 泰坦計劃 ",歷經多次戰略調整、團隊重組和領導層變動,目标從全自動駕駛轉向技術開發,但因戰略模糊和執行不力,始終未能推出實質性產品。
終于在 2024 年初,蘋果正式放棄電動汽車開發,據媒體報道,當時的蘋果在造車項目上至少已經投入了 100 億美元(約合人民币 721 億元)。這樣的結局也引發了馬斯克、雷軍等不少科技圈大佬的集體感懷。
一、引入自博弈訓練設計 短時間可獲大量訓練經驗
GIGAFLOW 是一個高度并行化的模拟器和強化學習框架,專門為自博弈訓練而設計。其主要目标是通過模拟數十億公裏的駕駛數據,訓練出一種能夠适應多種交通參與者和駕駛風格的通用駕駛策略,同時這也是一種不需要真實世界數據的訓練模型。
GIGAFLOW 能夠在 8 塊 GPU 上同時模拟 3.84 萬個虛拟環境,每小時生成 4.4 億次狀态轉換,這相當于 42 年的駕駛經驗。
值得一提的是 GIGAFLOW 的模拟環境設計簡潔,但通過大規模自博弈的方式彌補了其設計上的簡化。
▲ GIGAFLOW 的環境模拟
GIGAFLOW 使用了 8 張基本地圖,每張地圖的車道總長度在 4 到 40 公裏之間。這些地圖經過随機變換(例如縮放和翻轉)生成新的變體,形成一個總長 136 公裏的道路網絡。
在這樣的 " 世界 " 中,每個智能體從随機位置出發,目标是到達地圖中随機生成的目的地,途中需要經過若幹個中間點。
▲ GIGAFLOW 的不同駕駛風格
從互動決策的角度來看,這樣的環境中最多可以同時存在 150 個智能體(包括車輛和行人等),所有參與者均由同一策略控制,但通過參數化條件展現出多樣化的行為模式,如激進駕駛和守法駕駛等。
在訓練過程中,智能體通過自博弈逐步學會了復雜的駕駛行為。
這些行為包括在擁堵路段執行 " 拉鏈式 " 并線、在環島中協調通行、在狹窄空間中執行多點掉頭,以及在發生事故或遇到路障時重新規劃路徑。
要知道,所有這些復雜行為均是在沒有預設腳本或人類示例的情況下,通過自博弈自然湧現的。
二、多項措施優化訓練開銷 成本表現突出
從能力上看,GIGAFLOW 在單節點上進行 3.84 萬個并行環境的模拟,通過 GPU 加速的物理計算和動态狀态壓縮,顯著降低了内存占用和通信開銷。
在訓練資源配置方面,GIGAFLOW 完整訓練需要 2000GPU 小時(大約 10 天完成),總計算量約為 2.3×10^19FLOP,訓練數據總量為 16 億公裏。
根據 AWS p4d 實例(8 GPU/ 節點)的價格估算,總訓練成本約為 4.8 萬美元(約合人民币 34.56 萬元),低于同類強化學習方案。
▲ GIGAFLOW 訓練量對比其他模型
此外,依賴人類數據的模仿學習通常需要高昂的數據标注成本,而 GIGAFLOW 則避免了這一部分開銷。
為了進一步提升效率,GIGAFLOW 采用了優勢過濾技術,通過動态阈值丢棄低優勢樣本,減少約 80% 的反向傳播計算量,再加上所有交通代理(包括車輛和行人)共享同一策略網絡,避免了多模型訓練的開銷。
▲所有交通參與者共享同一策略網絡
此外,GIGAFLOW 通過離線生成地圖的栅格化特征(如車道拓撲和交通燈位置)優化也可以減少實時計算負載。
然而,GIGAFLOW 仍存在一些成本局限性,例如對 8 GPU 節點級算力的依賴,還有一定門檻,該策略的魯棒性需要超過 15 億公裏的訓練量,短周期訓練難以收斂。
再加上車輛動力學和獎勵函數的實時随機化會增加約 15% 的計算負載,可以説這個系統是目前自動駕駛訓練一個不錯的發展方向,但還遠未到達 " 革命性 " 時刻。
三、能力超越基準 未來仍有改進空間
在基準測試中,GIGAFLOW 策略的零樣本泛化能力在三個主流自動駕駛基準上得到了驗證,包括 CARLA、nuPlan 和 Waymax。
CARLA 基于手工設計的駕駛場景,主要評估長距離駕駛中的表現;nuPlan 基于記錄的真實駕駛數據,評估短距離駕駛中的表現;Waymax 則使用 Waymo Open Motion Dataset 構建的模拟環境,評估復雜場景中的駕駛表現。
▲ GIGAFLOW 在 CARLA 的測試表現
測試結果顯示,GIGAFLOW 的策略在所有基準上均超越了特定于基準的專家模型,展現出較強的零樣本泛化能力,甚至在未針對任何特定基準進行微調的情況下,其表現仍優于那些專門為基準優化的模型。
在 CARLA 中,GIGAFLOW 的策略能夠有效處理突發的行人穿越和擁堵的交叉路口等復雜場景。
▲ GIGAFLOW 在其他基準下的測試表現
而在 nuPlan 和 Waymax 的基準測試中,GIGAFLOW 策略展現了自然且魯棒的駕駛行為。
進一步分析表明,GIGAFLOW 策略在長期駕駛魯棒性方面也表現優秀,在降低動态噪聲和提高控制頻率的條件下,智能體平均可以連續駕駛 1750 萬公裏才發生一次事故,而美國人類駕駛者的平均事故發生率為每 82.9 萬公裏一次。
▲ GIGAFLOW 在模拟 / 決策不同值情況下模型的事故率
此外,研究者還深入探讨了 GIGAFLOW 策略的行為特性,包括其長遠決策能力,能夠根據未來可能發生的事件(如 150 米外的路障)調整當前的駕駛行為;多樣化駕駛風格,策略可以通過調整參數化條件展現從謹慎到激進的多種駕駛風格;以及在需要多主體協調的復雜場景(如車流合并)中,策略展現出靈活且自然的行為。
不過,這樣的成就在該項目團隊中也還有不少進展空間,盡管這種方法的優勢在于減少了對人工數據采集的依賴,能夠生成多樣化的駕駛行為,但是研究仍存在局限性。
首先,純模拟訓練的策略尚未在現實世界中進行驗證,因此其在實際應用中的表現仍然未知。
此外,研究假設感知系統是完美的,但在現實中,傳感器噪聲和環境的不确定性可能會顯著影響策略的表現。
最後,盡管自博弈展現了強大的泛化能力,但如何将其與基于人類數據的模仿學習相結合,仍然是未來研究的重要方向。
結語:蘋果仍在繼續發力汽車行業
這篇論文通過 GIGAFLOW 框架展示了自博弈在自動駕駛領網域的巨大潛力。不過,目前該模型仍有諸如真實世界的驗證和感知系統的集成等許多挑戰需要解決。
從蘋果的角度來看,盡管其已經官宣停止造車項目,但從目前來看還并沒有放棄在機器學習領網域的前沿追求,仍在繼續發力汽車行業。
GIGAFLOW 框架的研究為未來的自動駕駛研究開辟了新的方向,也為其他多智能體協作領網域提供了的啓發。我們不妨期待蘋果在自動駕駛領網域給行業帶來的更多震撼。