今天小編分享的财經經驗:BEV為什麼真香,會如何改變智駕行業?,歡迎閱讀。
圖片來源 @視覺中國
文 | HiEV 大蒜粒車研所,講述 | 郭繼舜,編輯 | HiEV
BEV 全稱是 Bird's Eye View(鳥瞰視角),實現方法是把原本攝像頭 2D 的視角通過算法校正和改變,形成基于上帝視角的俯視圖。
從本質上來說,BEV 算法就是 将傳感器輸入轉換到統一的俯視角度下進行處理。
這裡的傳感器不只有攝像頭,還有 4D 毫米波雷達、激光雷達等,算法把它們的信号融合,最終形成一個上帝視角。在計算機裡面處理這部分信息時,也會基于上帝視角去進行規劃決策和控制。
01 BEV 為什麼興起?
首先是城市 NOA 的落地。
高速場景下 L2++ 場景相對單一,感知任務不重,但控制方面很難,因為高速公路一般速度在 80-120 公裡 / 小時,所以在高速場景下,如何把規劃決策和控制做好,保證它不會在邊界狀态下失穩就顯得尤為重要。
但是在城市道路上,它的 難點就在于感知,因為有非常多的交通參與者或者非常復雜的路況。
目前主要的城市 NOA 玩家:
原來做 L4 的科技公司:從 Robotaxi 上遷移感知,調整傳感器;
傳統 Tier1 或者 OEM:把感知做好,處理好復雜場景。
在實現 L2++ 功能時,大多希望 360 度範圍内能夠做到精确感知,需要做到傳感器融合,難度加大,復雜度增強,因此 BEV 愈發重要。
安信證券報告顯示,蔚小理等車廠通過 OTA 更新釋放城市 NGP 或者 NOA 功能的時間節點都在 2022 年到 2023 年之間。
所以這就是為什麼國内高速 NOA 對 BEV 的使用并不多,但随着 2021 年特斯拉提出 BEV 算法,以及與 transformer 結合後,國内也開始在城市道路上去使用 BEV 算法解決復雜和不确定的城市道路場景。
02 BEV 做特征級前融合的優勢
現階段量產裡廣泛使用的後融合:
不同傳感器各自算各的,把感知和分類的結果做投票,這個投票是根據場景的不同計算權重的;
算法由不同供應商提供,不需要網域上的大算力,但每個傳感器都可能丢失重要信息,比如高速公路上的破碎輪胎;
在行泊一體之前,大多數的行車、泊車是兩套完全不同的傳感器。
但是不同的後融合方案存在各種缺點,因此大家開始想辦法就開始去做 前融合:
前融合的就是嘗試把攝像頭上的像素,激光雷達的點雲,毫米波雷達拟合過的一些特征信息(現在如果用 4D 毫米就是 4D 毫米波的點雲,它已經能夠成像了),把這些信息去做原始數據的時空同步,然後再結合其他的信息,最後得到了一個多維度的 Raw Data,再去做分類識别跟蹤等等。
但是這個過程中像素級的前融合非常難做,原因在于:
這麼多點雲與像素去做匹配的時候,時空同步難度很大;
算力消耗非常大;
不同的傳感器硬體系統時間是不一樣的,很難知道激光雷達的某一幀到底實際嚴格意義上對應了攝像頭或者毫米波雷達的哪一幀,而且存在運動補償的誤差。
即使做了非常詳細的标定,一旦換硬體或者換車型很多流程又要重新來一遍,所以我們在 BEV 裡面開始去嘗試把這個問題得到系統性的解決,那到底是怎麼解決的呢?
首先在 BEV 算法裡面是用特征級的融合,然後再把它映射到統一的坐标下,即 BEV 的坐标體系裡面。
然後去做融合,融合之後再進行訓練學習分類,最終後融合的特征可以保留,那麼同時它又不像是前融合階段要求高精度和高算力,所以它是一個相對折中的一種方法。
這個方法我們叫 特征級的前融合,或者把它叫做 中融合也可以。
特斯拉 AI Day 曾展示一張圖:不同的攝像頭都對于這個特征做識别,後融合方面就是先把它做分割之後再去融合,最終得到的結果是基于 BEV 做特征級融合的效果,遠遠好于在 BEV 空間裡面做的後融合,所以說特征級的融合能更好地解決後融合信息丢失過多而造成的誤差,同時也避免了像素級的融合,算力的災難和復雜度的災難。
03 BEV 加 transformer 組合帶來的變化
BEV 不是一個新的概念,深度學習賦予它活力,使用深度學習算法實現了從 2D 到 BEV 視角的轉換。
BEV 除了加了深度學習之外,在 2021 年的時候,特斯拉還提出了大模型 transformer 再加 BEV 的模型。
transformer 作用是什麼?就是給這些按照時間序列進入的特征和信息賦予權重。transformer 最大的功勞就是,對于 特征給予或異構的特征,比如說同構的特征給予了注意力的新參數。
基于 transformer 的 BEV 算法優勢:
增加了系統的跟蹤和推斷的能力;
加了異構傳感器的融合和算法泛化能力;
實現了不同視角下在 BEV 中進行統一的表達;
對于端到端的優化,模塊更簡潔了,任務的可擴展性也更強了。
擁有構建語義地圖的能力,即是方案可以擺脫高精地圖。
在 2021 年特斯拉在提出 BEV 之前,我曾經是高精地圖堅定的支持者,但最後發現高精地圖的更新成本等因素導致它的局限性,尤其是如果要做自動駕駛方案出海,還要涉及不同國家的高精地圖。
之後,各大車廠陸續開始通過 BEV 算法和得到的信息構建語義地圖,非常典型的應用就是有些車廠提出來的 高頻路線的城市道路 NOA。
特斯拉通過 BEV 算法加 transformer 去構建一個城市道路下高級别智能駕駛所需的語義地圖,但是這個過程的實現需要結構化訓練數據來源,要基于 BEV 的模型去做數據的标注、分割、分類等等。
那麼要标多少數據?
毫末智行 CEO 顧維灏預測,BEV 的模型 大概要标注 1 億公裡的數據,所以這個量是非常大的。因此特斯拉就推出了自動标注,怎麼做自動标注?
在影子模式的過程中得到了非常多的數據,數據能夠自動地進行相對準确的标注;
然後用人工進行抽檢的方式,能夠現在越來越好地為深度學習 /transformer 的模型等提供更多輸入數據。
這樣一方面是有影子模式去收集場景數據。另一方面又通過自動标注把這些數據變得結構化。通過這樣的方式打通,就使得特斯拉成為了全世界到現在為止獲取相對準确的結構化信息數據的最快也最廉價的一個車企。
除此之外,特斯拉在 AI Day 透露,另外一個數據來源就是 虛拟仿真。
除了對數據要求比較多,BEV 算法對算力的要求也比極高。那 BEV 算法如何才能降低算計的消耗呢?
用相對輕量化的模型;
用多任務模型就統一一個模型,但輸出多個任務可能是靜态可能動态的,反正就是用一個模型輸出多個;
對算子做一些優化。
04 BEV 後的技術迭代——占用網絡
占用網絡依然是一個類似于 " 上帝視角 " 的視角,還把多個傳感器做了融合。
下方影像是特斯拉的結果,他們把空間做了網格化的分區,分割之後,每一個小方塊叫做體素,類似于像素。
只要在這個空間的體素下被占用了,都會被系統認為是 1,賦值 1,否則賦值為 0。只要知道物體在空間裡面占據了一定的體素,系統就會把它顯示出來,并判定它是一個障礙物。
特斯拉的想法是,應用好占用網絡,再加上 4D 雷達點雲信息去做融合,解決了部分特殊場景問題後,最終就能取代激光雷達。
在 2020、2021 年前後, 元戎啟行的 CEO 周光也曾向我展示過類似于體素的概念,這可以說明我們國内的科技公司對這部分技術掌握得很不錯。
占有網絡解決了不識别就不能作為障礙物的問題,後續我們還需要對相關算法繼續做更多的優化,去減少算力的消耗,同時增加它的實時性,才能保證獲取有更好的效果。
05 問答環節
Q:如果高精地圖後續大規模開放,各家會繼續走輕地圖重感知的路線還是重新去用高精地圖?
A:高精地圖的更新成本巨大,且更新頻率低,而随着感知算法效率的提升,系統對高精地圖的依賴性将逐步降低。
Q:大概在兩三個月以前,李想表示要轉向 BEV 加 transformer 的方案,理想汽車要在 2030 年成為一家 AI 公司。從這麼一個角度來看, BEV 加 transformer 的方案它到底是有學術意義上的貢獻,還是說它其實解決了一些工程上問題?
A:transformer 本身是一個創新性、颠覆性的東西,但是 transformer 和 BEV 的結合,或者說比如深度學習和 BEV 的結合,這是由工程驅動的解決問題的方式所得到的創新。
Q:BEV 加 transformer 的方案對整個軟體或者算法層面的架構,從整個硬體的計算架構來說,它會產生怎樣的一些影響?
A:在軟體層面,剛開始大家會基于 BEV 整理一套架構。比如說,很多的科技公司開始去提出基于 BEV 去做各種傳感器的訓練,然後得到了一個 BEV 平台,之後可以在上面去适配更多不同像素的攝像頭、不同角度的攝像頭,不同原理的激光雷達或者是 3D、4D 毫米波雷達,所以大家開始基于 BEV 去形成一個範式。
BEV 加 transformer 的方案最厲害的點就在于給智能感知一個新範式,大家可以基于這個範式去積累更多的數據和模型。在硬體層面,可能更多給硬體一些幫助,當軟體的适配平台化能力得到提升的時候,那麼硬體的改變它給軟體帶來的障礙就沒有那麼大了。
Q:BEV 是不是跟着大模型訓練,BEV 構造出來的數據場景是不是大模型訓練實現的基礎,或者說更方便大模型來訓練出一些輔助駕駛的模型?
A:可以把 BEV 梳理為三個階段:
用傳統的只知道攝像頭的内參幾何變換的方式得到的,但因為外部道路環境、車本身俯仰角的變化,使得模型很容易失效;
開始去嘗試引入到車的位置信息,道路信息,然後開始去用深度學習去做 BEV;
2021 年開始,特斯拉把 transformer 和 BEV 做了結合之後,增加了多傳感器,國内車廠開始跟随此方案,第三個階段确實和大模型有非常大的關系。
Q:按目前的法律規定來說,未來 BEV 構圖的語義地圖可以用到其他車上嗎?
A:這取決于一個點, BEV 模型所生成的語義地圖能不能夠非常精确地重構關鍵的地理信息。如果能這個本身一定是需要被監管,如果它的程度不足以對國家造成安全傷害,但是卻又能夠幫助車輛進行城市道路下或者高速公路的 NOA 功能,這就是可以被保留。但是我們不太了解這個度在哪裡。
現階段重構出來的如果是個局部地圖還好,但如果是把很多的車輛都放在一起,去形成一個全局地圖可能會有問題。
Q:transformer 和 BEV 方案對最低算力要求是多少?
A:基本上是基于 200Tops 以上算力,保證有很好的效果,BEV 模型現階段還是在比較依賴大算力的。
Q:在 BEV 的技術下如何兼顧遠距離,特别是大于 100 米的感知精度?
A:BEV 裡面本身已經有了 transformer,已經做了很多優化了,但現在的體量模型的復雜度都還是很高的,不可能看得非常的遠。
那索性在 BEV 超視距的範圍内,增加一個原本傳統的算法,用 2D 算法去跟蹤更加遠的物體,但是當它進入到了 BEV 體系之後,我們可以在幾何上做變換,認為它是同一個物體。
Q:BEV 方案落地後,未來對地圖的需求是不是會大幅度減少,BEV 對整個技術棧有怎樣的影響?
A:如果是做地圖的同學考慮轉換專業,比如原來做定位、slam 這些做定位的可能會相對容易轉過去,它的底層有很多比較像的地方。當然如果原來做規劃決策,那還是可以的。
至少從現在的技術趨勢來看,以後可能用的也許就是一個導航地圖或者 ADAS 地圖,或者是由眾包構建出來的語義地圖。趨勢是相對明确的,就是要輕地圖重感知。
Q:自研 BEV 的難度和研發周期必備的前置條件,剛才提到有大數據,那麼基礎設施有哪些?
A:首先就是數據,其次是要盡快形成數據閉環,獲取數據的方式要改變,能夠通過眾包和實際生產環境裡面的量產車去得到數據。
再有就是虛拟仿真,其實是因為有些場景,比如說極端場景,比如車禍場景等等這種,是沒有辦法去采集的,那麼也許就需要虛拟仿真。
還要有數據中心,現在模型的復雜度在提升,多幀之間的處理,數據的量也在爆發,所以可能大的車廠後續需要有自己的數據中心進行持續的數據訓練和迭代,對數據要自動标注,數據标完之後自動結構化之後還要自動的長期可持續地迭代和訓練,才能使得基于數據驅動的這些算法越來越好。
Q:目前國外和國内關于 BEV 的差距大概是一個什麼樣的情況?
A:在學術層面來說,非常顯性的趨勢是,一個創新性、颠覆性的技術可能不是中國人提出來的,但是我們有能力很快就 follow 它,把它變得更好。
但是在工程化層面,我們應該把特斯拉和其他的海外的的 OEM 分開,那麼然後再把咱們中國的 OEM 放進來,在很多層面,特斯拉是顯性領先的。
整體來說, 全球化的 OEM 開始去要開始反思自己為什麼這麼慢,然後為什麼在人工智能方面持續的投入不夠多等等,那麼所以特斯拉是領先的,接下來可能是咱們的一些相對來說比較重投入的的 OEM。
Q:怎麼看待純視覺和激光雷達的路線?
A:某種意義上,激光雷達是對我們的訓練數據不足的一個補充。如果假設有無限的、準确的結構化數據,确實是不需要激光雷達,可以快速的訓練出來一個模型,這個模型因為數據量很大,可以無限接近激光雷達的精度,但因為現在我們的所得到的數據量有限,我們就想又想要得到一個不錯效果的車,那麼激光雷達放進來,它就是一個好又快、顯性度高的補充。
Q:單目攝像頭本身有它的缺陷,然後目前也有一些公司去堅持要走就是雙目視覺的路線,比方說大疆,怎麼看目前堅持走雙目方案的供應商?
A:我曾跟大疆的沈劭劼讨論過這個話題。大疆之所以選擇雙目,是因為要去解決物體障礙物分類的問題,如果是用現在的 BEV 本質上無法解決這個問題,雙目确實也還是很好的補充。
另外,還可以選擇雙目加上毫米波雷達,但如果成本有限,那麼可以選擇雙目或者是單目加毫米波雷達,那麼在傳統系統設計裡還傾向于異構,即一個單目加一個毫米波雷達,因為它是異構融合傳感器。
Q:随着 BEV 發展,對于數據量的需求是一個量級的提升,那麼有大量的标定數據,在不同的車型和不同的攝像頭配置方案的背景下,它能夠做到通用嗎?
A:這個問題其實是針對的是提供數據服務的提供商,然後他們怎麼去更好的去服務好這些 OEM。
成本會增加,難度是在變,大成本是在增加。自動标注的算法能不能夠盡量多的去取代人工,比如人工只做抽樣檢測或者做檢測,但不用再标了。也許這是一個未來的好方向,但一定需要大量的、準确的結構化信息,而且 2D 數據復用不了。
Q:車廠、Tier 1 解決方案商和芯片公司哪一方有可能會在 BEV 方面做得更好?
A:大概在兩年前,判斷哪一家車廠能夠做得更好的時候,我當時總結說,哪一家車廠能夠在短時間裡面得到大量的、準确的、低成本的結構化信息,誰就會做得更好。
那麼在現階段來說,如果說針對 BEV 這個模型來說,我覺得重要點在于它要持續的有數據灌入且能持續的迭代。
那麼在持續性這個層面,傳統車廠要去克服體制的原因,這個情況就是說,我們需要有會做決定的人,他知道要持續的、不斷為這個事情,為訓練數據收集數據形成數據閉環,去不斷的優化算法,這個事情要持續的迭代和更新。
首先,BEV 作為算法的 Tier1 或 Tier 2 安身立命的東西,他們是有大概率做好的。第二個是以新技術作為賣點的的新造車。
更多精彩内容,關注钛媒體微信号(ID:taimeiti),或者下載钛媒體 App