今天小編分享的科技經驗:Sora能否成為自動駕駛「強心劑」?,歡迎閱讀。
積極看待價值,審慎思考路線
OpenAI 又一座裡程碑—— Sora,讓人們對人工智能技術再次感到振奮。 而在近期備受關注的大咖觀點中,周鴻祎和馬斯克都提到了自動駕駛。
周鴻祎認為,Sora 對物理世界的模拟,至少将會對機器人具身智能和自動駕駛帶來巨大影響——「原來的自動駕駛技術過度強調感知層面,而非認知層面 … 如果沒有對這個世界的理解,很難做出真正的無人駕駛。」
馬斯克則不服氣地表示,特斯拉在大約一年前就能精确生成真實視頻,只不過由于訓練數據來自汽車,生成的視頻并不像 Sora 那樣豐富有趣。
不少自動駕駛技術公司目前正在積極運用大語言模型或多模态大模型,進行更加全面的仿真訓練,以增強車輛對場景的理解,乃至對環境常識的認知,進而部署端到端自動駕駛方案。
而根據 Sora 所展示的效果,似乎也令人看到了自動駕駛更加真實、高效的訓練趨勢,從而實現快速進階。據此,首席智行官收集了業内專家及從業者的不同觀點。
積極看待 Sora 能力,但附加前提更加重要
360 公司創始人、董事長周鴻祎提出,人駕駛汽車的更多判斷是基于對世界的理解,而 Sora 對世界的理解更上一層樓,因此對無人駕駛有啟迪意義。
除了周鴻祎,許多人都認為 Sora 既然代表了 AI 的進階,那麼也預示着自動駕駛的進階。因為類似 Sora 這樣的視頻編輯和操縱功能,可以作為自動駕駛系統中的場景重構和仿真工具;且如果工具可靠,無疑可能會推動自動駕駛實現質變。
「模拟器将成為自動駕駛系統迭代的核心發動機。」
鑑智機器人合夥人、技術副總裁潘屹峰認為,從大語言模型開始,AI 因果推理能力全面提升,自動駕駛就已經全面進入認知階段了。而 Sora 一次性覆蓋了傳感器仿真和交通流仿真兩個任務,能夠大幅提升數據生產效率,可以促成自動駕駛質變。
「像特斯拉、Wayve 等研發端到端自動駕駛的公司,訓練核心就是視頻生成。」毫末智行數據智能科學家賀翔稱,如果能做到結合駕駛動作生成視頻,那基本上就解決了端到端自動駕駛問題。同時,這也會在一定程度上令純視覺路線更加可靠。
(Wayve 大模型 GAIA-1 生成的駕駛場景)
不過他也指出,目前看 Sora 的視頻生成還有不少問題,但基于視頻生成的世界模型,最終有希望端到端地解決所有機器的智能移動,包括自動駕駛、機器人等。
在場景分析層面,另一位自動駕駛從業人員則認為,Sora 能夠提升對于視覺信号的應用能力,有助于對自動駕駛復雜場景:交警手勢、動物識别、異常事故、消防車,急救車意圖等進行認知。
在 Sora 剛剛發布時,中科院計算所研究員山世光就曾表示,Sora 對 AGI 世界建模問題的研究有重要推動作用——它不止可以完成文生視頻,更重要的是可以被看作建模世界底層物理規律的模型。
也就是說,Sora 能夠了解世界運行的底層物理規律,學會了預測下一個時刻的變化。
而這種認知和預測,對于自動駕駛來說無疑是非常關鍵的能力。
(Sora 還不能準确模拟一些基本互動的物理現象,如圖中的玻璃碎裂)
不過山世光也提出,目前來看,Sora 的能力還是嚴重不足的,仍會產生大量不符合物理規律的視覺内容。
在圖森中國 CTO 王乃岩看來,類似 Sora 這樣的工具,對于自動駕駛的仿真乃至數據增強來說,必然是有價值的。但至于它是不是一個可靠的世界模型,是否能實際用在駕駛任務中,還有待商榷。
「現在已經有了這麼多大模型,但其可靠度仍是未知,這就使得這一前提并不成立。」
為「世界模型」打個問号
近日,Meta 首席科學家 Yann LeCun 直言道,Sora 的生成式技術并不算是世界模型,也無法代表模型理解了物理世界。各種不同的看法和質疑,也令業界謹慎審視 Sora 能真正發揮的作用。
對于 Sora 是否能應用在自動駕駛上,不少業内人士也是持觀望、甚至是否定态度。
「Sora 是一個文生視頻的應用,也就是可以運用到視頻場景仿真,以及數據生成領網域。其所面向的商業視頻市場,與自動駕駛場景下的商業價值相比,相差甚遠。所以我不認為 Sora 本身會面對自動駕駛市場,而是要靠自動駕駛企業自己研發出類似 Sora 的工具。」
(提示詞:「人們在海灘放松的真實視頻,一條鲨魚從水中冒了出來,讓所有人大吃一驚。」圖源:https://twitter.com/_tim_brooks/status/1758655323576164830)
魔視智能乘用車產品副總經理張峥表示,雖然目前有多家企業都宣稱在開發這樣的工具,但幾乎沒有實際落地的。
不過同時,他并不否認 Sora 代表着 AI 算法能力的快速進展,也期待相應技術在自動駕駛領網域的落地。
如若再退一步看待目前自動駕駛面臨的問題,則會發現,盡管從去年開始,多家自動駕駛公司都開始積極應用大模型,但目前自動駕駛的實際效果也仍未實現質變。
(馬斯克直播演示 FSD V12 時,在交通環境復雜的路口發生的人工幹預)
王乃岩認為,在 Sora 出現之前,在自動駕駛領網域也已經存在很多所謂的世界模型。包括馬斯克所說的,特斯拉也在進行應用。
「大家做得都挺好的,但也要思考為何大模型至今仍未推動自動駕駛的質變。」
他表示,大模型技術對于自動駕駛的發展肯定是有價值的,但大模型究竟要如何應用,是不是一定意味着端到端,這其中還有很多應當探讨的問題。
「其實『端到端』本身是沒問題的,但是否一定要神經網絡直接輸出控制信号,或者 planning 的路點?這還沒有定論。」
在王乃岩看來,大模型要怎麼和傳統方法結合,是一個值得深入研究的問題。「大模型端到端對于更重視體驗感的輔助駕駛來說,可能是個很好的解決方案。但是對于需要安全保障的自動駕駛來說,它與實際應用之間仍然有很大的距離。」