今天小編分享的科技經驗:華為、特斯拉帶頭,車企卷入「大模型」軍備競賽,歡迎閱讀。
自動駕駛的進程,因為大模型又起波瀾。
近幾年,自動駕駛近年發展迅猛,硬體預埋軟體持續迭代的風潮下,車載算力急劇增長快速普及,但軟體端功能進化滞後于算力。人們似乎開始接受要經過很長時間才能發展到自動駕駛。
但 ChatGPT 的出現帶給自動駕駛行業很大啟示。
ChatGPT 作為大語言模型的代表,通過對海量多模态數據的大規模自監督學習,借助「預訓練 + 微調」的方式,讓 AI 可以完成各種復雜自然語言任務,甚至通過了圖靈測試——自動駕駛,被認為是下一個可能實現突破的領網域。
北京智源人工智能研究院院長黃鐵軍甚至預測,三年之内可以實現高級别自動駕駛。
目前,在產業界很多公司都在「大模型上車」上進行探索。一部分自建大模型,商湯發布的日日新大模型,毫末智行發布了自動駕駛生成式大模型 DriveGPT ——雪湖 · 海若;另一部分公司走聯合路線,比如小鵬汽車聯合阿裡的大模型建立自動駕駛智算中心、斑馬智行接入阿裡大模型等。
「大模型上車」目前重點進展:
數據标注——特斯拉等公司,通過大模型優化數據标注,降低了人工标注比例和成本;
仿真優化——提升虛拟訓練環境的真實性,優化虛拟訓練數據;
優化感知——利用大模型能力,優化多個環節的小模型,提高感知效果;
端到端——利用生成式預訓練大模型技術,讓自動駕駛模拟類似人腦駕駛的能力。
大模型會如何影響智能駕駛?現在有哪些公司和團隊,已經開始實踐「大模型上車」了?它真的能讓無人駕駛更快到來嗎?
小模型 VS 大模型
智能駕駛行業,經歷了一個模型「從小到大」的過程。
目前已量產的智能駕駛,絕大多數采用的是模塊化架構。簡而言之,模塊化是将智能駕駛系統拆分為多個典型任務,并由專門的 AI 模型或模塊處理。
現階段的自動駕駛模型框架主要由感知、規劃決策和執行三個部分組成。感知模塊就像是人的眼睛和耳朵,負責對外部環境進行感知;控制模塊就像人的雙手和雙腳,負責最終的加減速、轉向等操作;而決策規劃模塊就像人的大腦,基于接收到的感知等信息進行行為決策和軌迹生成。
在此架構下,每個大模塊可能包含多個小模型的組合。如感知模塊可能包含分類、追蹤和定位等不同 AI 模型,各司其職。
不過,随着軟硬體更新與逐步深入,自動駕駛對于計算能力和海量數據處理能力的需求暴增,傳統各個小模型「堆疊」的方案,已經無法滿足城市自動駕駛的需求。比如,「堆疊」造成信息失真以及算力浪費,而每個小模型的技術「天花板」也會導致整體解決方案受限。
舉個簡單例子,小模型就像一個小孩,他非常擅長看圖和聽故事,可以快速地找到圖片中的物品或者聽懂一段故事的意思。但是,如果這個故事太長或者太復雜,他可能就會聽不懂或者忘記了。
特斯拉自動駕駛技術架構 | 特斯拉
這個時候,大模型開始進入業界視野。
2021 年 8 月,特斯拉的 AI 高級總監 Andrej Karpathy,在特斯拉 AI DAY 上展示了一項新技術——基于 Transformer 的 BEV ( 鳥瞰視角 ) 感知方案。相當于車輛正上方 10-20 米有一個直升機俯視車輛與周圍環境,這是大模型技術首次應用于自動駕駛領網域,也是特斯拉實現純視覺智能駕駛方案的關鍵。
華為、百度 Apollo、蔚小理、毫末智行、商湯等一眾廠商,甚至像地平線這樣的芯片公司,也都在 BEV+Transformer 上有所布局。例如華為的 ADS 1.0,據稱已實現基于 Transformer 的 BEV 架構,而最新發布的 ADS 2.0 進一步更新了 GOD 網絡,類似于特斯拉的占用網絡算法。
而大模型則可以比喻成一個大人,他非常聰明,可以同時處理許多信息,包括看圖片、聽故事和聽音樂等。他可以處理很長的故事或音樂,同時處理多個任務。不過,他需要更多時間和精力學習和處理這些信息。
值得注意的是,Transformer 不等于大模型。它是模型的底座,大模型的架構可以基于 Transformer。
大模型時代的數據和算法
在特斯拉使用 Transformer 之後,大模型早已經不限于智能駕駛感知領網域。
目前,智能駕駛已從僅使用模型進行影像感知,使用規則算法的方式,轉變為感知、融合、預測全面使用模型。
其中,這是大模型在智能駕駛領網域最先落地的幾個場景。
數據标注
自動标注是大模型最直接的應用之一,可以大大降低數據标注成本。海量高效的數據标注是算法模型的基礎。随着智能駕駛的發展,激光雷達 3D 點雲信息和攝像頭采集的 2D 影像信息增加,道路場景更豐富,自動駕駛的數據标注類型和數量不斷增加。
然而,數據挖掘難度大,數據标注成本高。所以,智能駕駛廠商通過自動标注優化系統效率。例如,特斯拉從 2018 年以來不斷發展自動标注技術,從 2D 人工标注轉為 4D 空間自動标注。随着自動标注技術的成熟,特斯拉的人工标注團隊規模不斷縮小。2021 年該團隊超過 1000 人,2022 年裁員超過 200 人。
毫末智行發布的自動駕駛生成式大模型 DriveGPT ——雪湖 · 海若 | 毫末智行
小鵬汽車和毫末智行也相繼推出自動标注工具。據毫末智行 CEO 顧維灏表示,目前獲取車道線、交通參與者和紅綠燈信息,人工标注成本約每張圖 5 元,而毫末 DriveGPT 的成本僅 0.5 元。
優化仿真
除此之外,自動駕駛需要大量的數據支持,數據積累将長期内是自動駕駛的核心競争點。目前,數據來源主要有真實數據、虛拟仿真和影子模式。
除真實數據外,仿真場景是彌補訓練大模型數據不足的重要方式。虛拟仿真通過 AI 生成道路場景、車輛和行人等信息,對模型進行訓練。可用于對行車采集的 corner case 進行反復模拟和訓練,彌補現實場景采集信息不足的問題。
目前仿真場景主要由遊戲引擎生成,基于現實世界數據保證仿真場景與真實場景的相似度,依靠交通要素的重新組合提高泛化能力。理論上,優質仿真可替代實車數據收集,降低算法搭建成本并提高迭代速率,但逼真的仿真環境構建和許多長尾場景的復現難度大。
大模型有望推動仿真場景大幅提升泛化能力,幫助主機廠提升仿真場景數據的應用比例,從而提高自動駕駛模型的迭代速度、縮短開發周期。
比如特斯拉基于虛幻 4 引擎渲染的仿真環境,測試自動駕駛系統在極端情況和復雜環境中的效果。毫末智行選擇與阿裡和德清政府合作,将真實交通流導入仿真引擎,用于路口場景的調試和驗證。
優化小模型
除了數據層面,在模塊化的算法部署模式下,感知算法和規控算法可通過大模型的加強實現感知精度和規控效果的提高。例如,大模型作為車端算法的「老師」,通過「蒸餾 ( 教授 ) 」幫助小模型實現優異的性能。所謂「蒸餾」,就像老師教學生,将大模型或多個模型集學到的知識遷移到另一個輕量級的模型上。
比如百度将文心大模型的能力與自動駕駛感知技術結合,提升車載端側模型的感知能力百度利用半監督方法,充分利用 2D 和 3D 數據訓練一個感知大模型。通過在多個環節對小模型進行蒸餾,提高小模型的性能,同時通過自動标注為小模型定制化訓練。大模型可以增強遠距離視覺 3D 感知能力、提高多模态感知模型的感知效果。
端到端一體化端到端的感知決策一體化算法被認為是自動駕駛算法終局,預測、規劃、決策都在這個模型裡。所謂「端到端」并不是自動駕駛領網域獨有的說法,本身是深度學習的一個概念,英文為「End-to-End ( E2E ) 」,簡單說就是一個 AI 模型,只要輸入原始數據就可以輸出最終結果,與 ChatGPT 類似。
在智能駕駛領網域,端到端并不是新概念,1988 年面世的 ALVINN 自動駕駛試驗車基于端到端架構,在大學校園實現最高 70km/h 的自主行駛。目前,許多廠商研發端到端智能駕駛技術,除特斯拉外,還有英偉達和 comma.ai 等。
這一駕駛方案更接近真實人類駕駛,只需要一個人來開車,從眼睛看到雙手轉方向盤、腳踩刹車或制動板,整個過程一氣呵成,關鍵因素是人類的大腦中樞神經系統,端到端大模型的作用類似于人類的大腦中樞神經系統。
毫末 DriveGPT 底層模型,同樣采用 GPT 這種生成式預訓練大模型技術,首先通過引入大規模駕駛數據進行預訓練,然後使用獎勵模型 ( Reward Model ) 與 RLHF ( 人類反饋強化學習 ) 技術對人駕數據進行強化學習,對自動駕駛認知決策模型進行持續優化。
端到端自動駕駛,只是實現自動駕駛的最理想技術方案,帶有研究者的理想主義情感。目前,端到端大模型還存在許多痛點,最大的痛點是可解釋性差。
從 PPT 到落地
然而,大模型和智能駕駛的融合并非一蹴而就。
理想汽車創始人、董事長兼 CEO 李想認為,大模型和智能駕駛可以分為三個階段:
第一階段是賦能,也就是智能輔助駕駛,賦能駕駛員,讓駕駛更安全、便捷。這個階段需要進行人機共駕的過程來訓練大模型;
第二階段是半機器人。随着越來越多的人使用輔助駕駛,智能駕駛會形成半機器人。它可以解決酒駕、疲勞駕駛等問題,相當于垂直領網域的專家,可以看作是真正免費的司機;
第三階段是 AGI(通用人工智能)。行為學習和認知學習會二合為一,大腦和小腦同時具備,機器可以獨立獲取信息,形成自主迭代。雖然無法預測這個階段何時到來,但我們對此充滿期待。
大模型發展時間線 | 網絡
不過,大型模型在智能駕駛領網域面臨着眾多挑戰:
多模态數據
主要體現在多模态數據、訓練和部署等幾個方面。比如,自動駕駛所需傳感器數據包括激光雷達、毫米波雷達、超聲波雷達,以及高清攝像頭、IMU、GPS 以及 V2X 等。這些數據來自不同的坐标系,帶有不同的觸發時間戳,以及要考慮到硬體損壞等問題時;同時,需要大量的場景數據,比如交通标志線、交通流、行為模型等等。
算力 + 芯片難題
從部署方面看,大模型需要高規格的硬體配置,包含高性能計算能力、大容量内存和低時延等特點。但車載設備的硬體條件相對有限,無法提供足夠的計算資源支撐大模型運行。
具體來說,大型模型需要超過 10 億級的 GPU 計算能力,例如在自然語言處理領網域的 GPT-3 模型就需要數萬億次浮點運算(Tops)的計算能力。這要求芯片的算力至少要在萬級 Tops 以上才能夠勝任大型模型的計算任務。但是,在車載部署場景下,芯片的算力往往只有數百 Tops 左右,遠遠達不到大型模型的要求。
同時,大型模型需要大量的内存來存儲模型參數和中間狀态。例如,在自然語言處理領網域的 GPT-3 模型中,需要使用 350GB 的内存來存儲模型參數。但是,在車載部署場景下,芯片的内存容量通常只有幾十 GB。
時延問題
此外,大型模型的部署還需要考慮時延的問題。例如,在自動駕駛場景下,需要對海量數據進行實時處理和分析,因此需要保證模型的推理速度和響應時間。但是,在車載部署場景下,要求模型的推理時延要控制在 10ms 級别。
總的來說,大型模型在智能駕駛領網域仍是一個初級探索階段,需要進行算法優化和硬體進一步改進才能真正落地應用。但它給業界帶來的期望也很大——有望在未來讓自動駕駛成為真正的「老司機」。
一個邀請:
目前正在、或者計劃将大模型與汽車行業進行結合的團隊或個人,不論是否已有產品落地,歡迎聯系本文作者 周永亮(Wechat:zhouxizi77),咱們一起聊聊「大模型上車」!