今天小編分享的汽車經驗:别吹了,自動駕駛大模型PPT們,歡迎閲讀。
本文來自微信公眾号:宇多田(ID:hellomusk),作者:宇多田,題圖來自:《末路狂花》
人工智能產業(包括自動駕駛)有一個不可忽視的人性缺陷:
除了天然受制于技術語言,也有不少人故意把東西説得模棱兩可、艱澀難懂、天下第一……以達到讓人不明覺厲、讓資本掏錢的目的。
有些自動駕駛公司就善于此道。
或者説,如今市面上,把汽車工業與 " 超大模型 ""GPT" 以及 "AIGC" 強綁定的説辭,基本可以歸于 " 非蠢即壞 " 的商業炒作行徑。
特别是,在 " 大模型 " 到底有多大都沒法定義的情況下,有人拿出幾億參數值説大,有人搬出幾十億也説大,而 GPT2 的 " 大 " 就有 150 億,GPT3 則是 1750 億。
當然,大不大無所謂,很多人最關心的問題是,開始有公司向汽車產業推出所謂的自動駕駛 GPT,到底有什麼用?
答案是,或許真的沒太多用處。
首先,就像寫 Paper 占坑一樣,它的确有一小部分研究價值,屬于學術界的任務;
其次,忽悠資本,因為不少資本會對汽車產業與大模型的雙倍規模與估值買賬。
但事實上,包括自動駕駛產業與深度學習圈,許多開發者們對 " 自動駕駛 GPT" 的説法很不認同,甚至是極為惱火的。
我們請教了多位曾在大廠、中美科技獨角獸做自動駕駛研發的資深工程師,以及包括 OEM 在内的汽車產業人士看法,再結合部分博客文章,總結了一些觀點,或許會對汽車工業、資本以及更廣闊的大眾群體有一些啓發。
把 GPT 吹上車
以某家公司給出的 " 自動駕駛 GPT 產品 " 為例,其神經網絡概念圖讓内行都一頭霧水,不知所雲。
此外,1200 億的參數量的确夠大,相當于對标了 GPT3。這意味着支撐這龐大數據量訓練的硬體資源支持,同樣不菲。
但是,他們雖背靠主機廠,卻并沒有自建昂貴的數據中心,而是跟其他企業一樣租用雲上資源。很明顯,這是将某大廠雲服務整合包裝為自己的數據基礎設施服務體系。
其次,最重要的,大模型到底怎麼落地?
把跟 ChatGPT 一樣的 " 黑匣子 " 塞進汽車裏,做從 " 感知、規劃到決策 "(這是自動駕駛技術三個組成部分)的端到端輸出?
從這一方向,各方非常嚴謹地表示,目前離落地非常遙遠。
ChatGPT 有着自己天然的生存環境,那就是昂貴的數據中心裏。而所有關于 AIGC 的應用都要跟數據中心聯網,這沒有任何問題——在光纜的連接體系裏,做到極快反應。
但作為大型移動設備,車唯一靠的就是無線,但目前連 5G 也非常不穩定。所以,包括特斯拉在内,大家都只能選擇走一條路——
将高性能且輕量化的算法模型,塞進一枚性價比足夠高的芯片裏。
本質上,英偉達從 Tegra 2、Xavier,過渡到 Orin,再到 2000Tops 的 Thor,算力的确是沿着自動駕駛 AI 算法模型在車内的瘋狂擴充與變化而一路往上爬的。
而估算一下,GPT3 需要的算力至少是 Thor 的 10 的 N 次方倍。
當然,就像 GPT3.5 開源之後,有開發者已采用量化技術用蘋果 M2 芯片運行起 ChatGPT,所以,不排除未來有人會把它塞進英偉達的芯片裏。
但是,除去車輛感知、規劃與決策過程本身的復雜性,汽車工業瘋狂追求的性價比、以及延遲兩秒就會出人命的嚴苛交通環境,對一切 " 不可解釋性 " 有着天然的回避姿态。因此,業内認為,可行的時間點極為遙遠。(當然,這家公司説自己的模型對于駕駛策略是可解釋的,請拿出更詳細的證據。)
目前來看,自動駕駛前裝市場普遍情況是:" 唯有‘感知’模塊用上了模型 "。
業内清楚,感知最好做,且各家已成功落地——從 CNN(卷積神經網絡)開始,它就是一套相對成熟的流水線。而芯片裏的 GPU 部分也基本被 " 感知 " 占用。
當然," 決策 " 與 " 規劃 " 兩個部分,并非沒有人做 AI 化嘗試,只是汽車工業大多在當下,依然采用最為穩健的方法——
一系列來自機器人等領網域的經典規則理論。譬如以 " 蒙特卡羅搜索樹 " 為代表的啓發式搜索算法。
以 " 規劃 " 為例,其上車最常見的方式是把 " 縱向規劃 " 和 " 橫向規劃 " 分開,做 " 時空分離 "。而在這一點的創新上,就分出了幾個 " 流派 " ——
以 B 大廠與蘇 Q 廠為代表,做時空聯合規劃。相當于把縱向控制與橫向控制的問題結合在一起,更容易搜索出全局最優值。
這個流派的優點是,在面對極為困難或復雜場景,局部最優算法很難搜索出一個更智能路徑,但全局可能性更大。但缺點是占用更多算力。
以蘇 M 廠等很多從深度學習領網域 " 出道 " 的公司為代表,在經典決策規劃裏融入 AI 算法,把其中一部分模塊用 AI 算法替代掉,而非上來就做大一統。
的确,五六年前 " 計算機視覺 " 的大火,早就證明了深度學習具備巨大的應用潛力。但它的缺點也是顯而易見的—— " 不可解釋性 ",以及通過大量資源投入來持續燃燒數據。
因此,要想上車,大部分企業在努力采用折中的方式——經典理論輔以 AI 算法,既保留經典方法的穩定性,又能提升性能表現。
" 譬如,規劃裏的‘路徑生成’,就可能用 AI 做替代;而路徑的選擇、判定以及決策,以及後面的縱向規劃,仍基于規則去做,形成一種復合方法。"
因此,大模型當然是一個終極理想狀态,但上車的最好方法卻是 " 分步驟推進 ",與成本之間做更多權衡。
當然,如今也有高端玩家們已經在研究 " 單模型多任務 " 的所謂 " 大一統 " 形式,不過一切沒有定論。
大小可能不重要
我們從來都沒想到,就像當年 " 自動駕駛分級 " 概念的模糊不清,讓國内不少公司鑽過空子一樣;大模型這個 " 大 " 竟開始也被鑽空子——
你有 10 億,我有 100 億,他有 1000 億參數。
然而,在國外,對大模型的 " 大小 " 雖然有讨論,卻從來不是重點。況且,國外工業界已經有了" 去大用小 "的勢頭。因為 " 大模型 " 絕不是越大越好,越大就意味着越不透明,越具有排它性。
包括蘇黎世聯邦理工大學的科學家在内,一群年輕學者已發起一個叫做 "BabyLM" 的迷你模型挑戰賽,用規模為大型語言模型千分之一(一億參數左右)做更适用工業界的模型。
此外,2022 年,諸多國内自動駕駛公司蹭的所謂 "Transformer" 大模型,更多指代的,是包括 GPT 在内諸多大模型背後的深度學習基礎架構,而非僅指代大模型本身。
它最早出現在 2017 年谷歌的論文裏。但這個被常用在自然語言處理(NLP)的 Transformer 模型,之所以突然在自動駕駛視覺界火了,是因為特斯拉将這一深度學習模型的 " 原理 ",極具創造性地用在了 " 影像空間轉化為矢量空間 " 的感知預測中。
簡單來説,特斯拉工程師思考的是,既然這是一個優秀的語言翻譯模型,那麼為何不能将 " 攝像頭獲取的影像空間‘翻譯’為 3D 矢量空間 "?
所以,Transformer 發源于 NLP 但轉入了 CV(計算機視覺);而 2023 年最火的 BEV 大模型,則是基于 Transformer 在自動駕駛領網域的衍生物。
如果感興趣,可以直接看 Medium 上關于特斯拉 FSD 的技術博客。工程師全程從沒提過所謂的 BEV 模型到底有多大(雖然 BEV 被印證的确是燒數據的),而是設法解決目前車載攝像頭數據融合產生的問題——
純攝像頭系統對閉塞區網域與大型物體的預測結果比較糟糕,那麼便從神經網絡源頭改變算法模型的設計理念——從影像過渡至 BEV。
效果也确實有了質的提升。
事實上,特斯拉更多值得稱道的,是對各種各樣已存的如 RNN、LSTM、RegNet(上圖)等普通模型進行創新,且把它們的潛力發揮到極致;
同時,強大的工程能力,又讓特斯拉把這些模型都塞進了車裏。
" 特斯拉是在從大模型原理入手,去試圖做一些有益于自動駕駛整個模型的設計,同時又考慮到汽車必要的輕量化和小型化,再結合自己的 AI 芯片(TRIP)工藝往車上搬。
我認為這是一件更趨向于實幹的事情,而不是像國内一些公司吹牛蹭熱點。"
從 1 到 1.X?
不能上車,那麼大模型做離線支持的" 數據閉環 "工作總可以吧?
" 數據閉環 " 這個概念,可以參考被説爛了的特斯拉 Autopilot 數據引擎框架——
确認模型誤差、數據标注和清洗、模型訓練,再到重新部署。
與此同時,全球各地的特斯拉車輛源源不斷的回傳數據進入這套流程,使之迅速流轉起來,形成一套閉環系統。
但有趣的是,沒有 " 大模型 ",這些工作也可以做,不是非大模型介入不可。
譬如,數據閉環裏的 " 預标注 ",國内無論是早期的 B 大廠,還是 H 大廠的某生物工具鏈,做的這套東西已經非常成熟,那麼大模型的 " 增益 " 就有待評估,沒有 PPT 們渲染的那麼厲害。
實際上,數據閉環的概念既簡單又復雜。
簡單在于,它可以被直接看做是" 錘煉算法的大型基礎設施 ",從它裏面出來的模型上車後足夠智能,足夠見多識廣。
而復雜之處在于,它的每個環節,幾乎可以作為一個小型創業項目——
如何做到樣本的自動化挖掘,如何清洗掉冗餘數據留下最有營養的部分,如何做好數據的冷存儲與熱存儲?如何分門别類組織好數據?如何做到更有效的預标注……
所以,這套閉環的工程量極為龐大,每個環節都需要專門的人才維護。
而對于自動駕駛創業公司來説,由于極度燒錢,一般會選擇" 把 A 部分做好,把 B 部分外包出去 "的輕量化模式,有強項也有短板。
目前,雖然各家東西細節無從比較,但 L4 獨角獸 P 廠的數據閉環工具鏈 "CQ",竟然得到了業内不錯的評價。
對于這只早期 L4 巨獸,不談商業模式,被認為 " 在構建基礎設施上的積累比較厚實 ",是一家在技術層面有真東西的企業。
此外,維持這套東西的運轉,必然需要投喂更多的新鮮血液——數據與人才。因此,不是誰都能玩得起。
而特斯拉與比亞迪,是被認為最有可能把這個東西做好的商業組織。
只不過,基于人工智能的特性,數據閉環短期内是看不到成效的。它更像是春播秋收,把該澆的水、該施的肥、該播的種都做到位,不會立竿見影且巨燒資源,但效果出現後,便是馬太效應形成的開始。
因此,要比大模型在數據閉環上的應用,不如比誰更有錢。
寫在最後
當然,以上内容無意在狙擊誰,也無意表揚誰(否則不會用字母指代),而是希望產業能回到一個正常的對比參照系内,以及重點放在實際效果上。
以及,建議企業把辦公室内的 " 牌匾 " 換成特斯拉的成功三要素:
堅持第一原則思考方式,工程能力,以及執行力。
本文來自微信公眾号:宇多田(ID:hellomusk),作者:宇多田