今天小編分享的汽車經驗:學術界聖地,給國内自動駕駛一席之地了!,歡迎閱讀。
CVPR 2023 正式公布最佳論文等重磅獎項。來自上海人工智能實驗室、武漢大學、商湯科技團隊聯合發表論文 Planning-oriented Autonomous Driving(以路徑規劃為導向的自動駕駛)實現自動駕駛技術的重要突破,獲 CVPR 最佳論文。
國内自動駕駛,真的出息了!
一覺醒來,還沒來得及吃口熱乎粽子,就看見一條堪稱爽文的熱乎新聞:
在 2023 年,CVPR 大會的論文投稿總量達 9155 篇。其中,商湯科技及聯合實驗室共有 54 篇論文被 CVPR 2023 接收,包含一篇最佳論文、一篇最佳論文候選,以及七篇 Highlight 論文。
論文題目:Planning-oriented Autonomous Driving
論文地址:https://arxiv.org/abs/2212.10156
在近萬篇論文中,上海人工智能實驗室、武漢大學、商湯科技聯合團隊研究成果Planning-oriented Autonomous Driving(以路徑規劃為導向的自動駕駛)最終脫穎而出,獲 CVPR 2023 最佳論文獎(Best Paper Award)。
(劃重點)要知道這個國際獎項已經頒了 40 年,但以自動駕駛為主題的論文獲獎可是第一次!
另外參與 CVPR 評選需要和全球各地的頂尖學者來一套 " 過五關斬六将 ",拿了這個獎堪稱為國争光(進度條:已擊敗全球 99.99% 學者 / 學術機構)!
平復激動的心情,接下來咱們就聊聊這個獲獎的事兒。
首先這個頒獎機構用一個詞來形容,就是頂級(到能讓一個研究生原地畢業)。
CVPR 一年舉辦一次,是計算機視覺領網域的全球級會議。要想知道一個會議有多少含金量,看業内人的關注度就懂了,CVPR 的隆重程度:從 1983 年開始,每年吸引着全球各地的學術大牛們來參與,近幾年投稿量都近萬篇,即使這些天之驕子總是第一輪就會被刷掉 3/4。
當然這可不是什麼鍍金的手段,這個會議憑借着高質量和低成本,它為眾多研學者提供着教科書般的行業價值。目前在中國計算機學會推薦國際學術會議的排名裡,CVPR 為人工智能領網域的 A 級會議。
除了水平認證,CVPR 回報給這些學者們最重要的是尊重和公平。在初次篩選中,評審們給出的選擇不是通不通過,而是細致到 " 非常接受 "、" 接受 "、" 差不多 "、" 拒絕 "、" 非常拒絕 "。
同時評審們不屬于 CVPR 機構組織,對手裡的稿件都是盲審。最關鍵的是,稿件不允許出現任何能顯示作者信息身份的元素(懷疑定這個規矩的人參加過我們語文高考)!所以評審們和作者都不知道彼此是誰!因此,最後脫穎而出的作品都是用實力經過細審,沒什麼運氣的成分。
話說咱們國内智能車現在發展的如火如荼,也不知道當時有沒有評審猜中過這篇論文的歸屬地。話不多說,接下來咱們就來看看這篇論文是靠什麼獲得國際認證的。
我們人類開車時的思路通常是 " 堵車了,我得刹停 ",而自動駕駛車的思路則是 " 感知前方障礙物的時速和距離、系統算法判斷場景需求決定刹車、牽動制動系統 "。顯然,如果自動駕駛系統将流程整合起來會帶來更絲滑、BUG 更少的體驗。
這篇以自動駕駛為主題的論文就是從此角度切入問題,核心在于首次提出感知決策一體化的自動駕駛通用大模型 UniAD。UniAD 将檢測、跟蹤、建圖、軌迹預測,占據栅格預測以及規劃,整合到一個基于 Transformer 的端到端網絡框架下。
不用覺得復雜,我們挑取 2 個重點詞 " 檢測 "、" 規劃 ",也就是說這個框架在環境中可以直接給出相應的指令。
UniAD 将各任務通過 token(最小部門)的形式在特征層面,按照感知 - 預測 - 決策的流程進行深度融合,使得各項任務彼此支持,實現性能提升。在 nuScenes 數據集的所有任務上,UniAD 都達到 SOTA 性能。
融合五大核心模塊,解決自動駕駛 " 規劃 " 難題
為什麼之前的自動駕駛系統做不到呢?
現有的自動駕駛系統可大致歸為三類:
(a)模塊化組成的系統;
(b)多任務模塊架構的系統;
(c)端到端自動駕駛系統。
其中傳統的端到端算法可分為:
(c.1)基礎的端到端算法,直接從傳感器輸入預測控制輸出,但是優化困難,在充滿復雜視覺信息的真實場景中應用面臨較大挑戰;
(c.2)按照任務劃分網絡的顯式設計,但是網絡模塊之間缺乏有效的特征溝通,需要分階段的輸出結果,任務間缺乏有效互動。
(c.3)這篇論文裡提出的決策導向的感知決策一體設計方法,用 token 特征按照感知 - 預測 - 決策的流程進行深度融合,使得以決策為目标的各項任務指标一致提升。
最為常見的是模塊化組成的系統架構,或者部分模塊組成多任務架構,他們都以優化部分性能為核心,比如檢測性能(檢測準确度)、預測性能(預測準确度)。
以上一些算法的 BUG 總結起來其實就是流程瑣碎,一損俱損。這和當下智駕方案都急着擺脫高精地圖的原因有點類似。畢竟依賴高精地圖的話,哪怕硬體、算法再好,只要地圖有偏差,整套方案直接崩盤。所以大家都在做 " 簡化和收納 "。
而端到端自動駕駛系統,以 UniAD 自動駕駛通用大模型為代表,将檢測、跟蹤、建圖、軌迹預測、占據栅格預測以及規劃五大模塊融合,以最終的駕駛性能為目标,從解決實際問題出發,例如提升規劃出來的車輛行駛軌迹的安全性。
現在行業中大多數端到端(End-to-end,E2E)的自動駕駛系統,由于沒有很好的網絡框架來融合全部五大模塊,都只能融合部分模塊。
UniAD 通過将環視的圖片以 Transformer 映射得到 BEV 的特征,同時進行目标的跟蹤,在線的建圖,包括目标軌迹的預測,還有障礙物的預測,最終實現駕駛行為。環視一圈,現觀察現預測,然後決定怎麼行動,聽起來是不是有人類開車的味兒了?
據商湯科技聯合創始人、首席科學家王曉剛表示,UniAD 可以做到 " 多目标跟蹤準确率超越 SOTA 20%,車道線預測準确率提升 30%,預測運動位移誤差降低 38%,規劃誤差降低 28%。"
下面展示了 UniAD 在數據集 nuScenes 上多個復雜場景下的優勢。
UniAD 感知到左前方等待的黑色車輛,預測其未來軌迹(即将左轉駛入自車的車道)和未來的 occupancy,推算繼續前行有碰撞風險,并立即減速以進行避讓,待黑車駛離後再恢復正常速度直行。
得益于 UniAD 的地圖分割模塊與規劃模塊的深度互動,規劃模塊基于道路信息作出判斷,向前行駛時依據道路結構适時地轉彎。
在視野幹擾較大且場景復雜的十字路口,UniAD 能通過分割模塊生成十字路口的整體道路結構(如右側 BEV 圖中的綠色分割結果所示)和周圍車輛的軌迹,由基于注意力機制的 planner 完成大幅度的左轉。
在夜晚視野變暗的情況下,由于需要繼續直行至下個路口左轉,UniAD 能感知到前車停止且左右均有障礙物,所以先靜止,待前車行駛并再前行并左轉。
雖然現在自動駕駛的目标還是趕緊追上人類,但是不得不說有些場景中大模型觀察環境比我們都更加全面細致,以下案例,展示了 UniAD 在國内真實場景的實際演示效果。
在擁堵路段上,UniAD 能感知到前方大車的停車和啟動狀态,做出相應的減速和加速決策,保持足夠的安全距離。
得益于地圖重建任務,UniAD 在路口和曲折道路上,也可以做出符合道路曲率的路徑規劃。
自動駕駛多模态大模型發展和落地
在學術圈大家都認這麼一個理兒:不能落地的論文得再好的獎也沒有價值。這篇《以路徑規劃為導向的自動駕駛》用幾千字提出了 UniAD 這項自動駕駛技術,為產業發展拓展了一個新的方向。實際上,它的創造者已經在努力将這些價值落地了。
作為創作者之一的商湯科技,一直致力于自動駕駛技術領網域的研究和發展布局。例如在今年上海車展上,商湯展示了廣汽埃安 AION LX Plus、哪吒 S 等車型搭載商湯絕影智能駕駛方案的落地成果。
王曉剛将這些成果歸功于商湯持續建設打造 " 大模型 + 大裝置 " 技術路徑,以及在自動駕駛行業長期深耕的積累與實踐,并表示未來将沿着多模态大模型的道路,去進一步推動自動駕駛的進步。
所以這篇論文不只是學術上一次舌戰群儒的勝利,更關鍵的是它将成為自動駕駛大漠台多模型落地的标志,繼續發揮它的應用價值,去推動實現更高階的自動駕駛人工智能。期待國内自動駕駛行業再次實現擊敗全球 99.99% 對手的進度條!
✦
END
>