今天小編分享的科學經驗:我們要做3D界的ImageNet,推動具身智能訓練新範式,歡迎閱讀。
圖形學的并行計算和邊際計算,在模拟物理世界和機器人訓練中起到了關鍵作用。
圖形學模拟世界有天然優勢。具身智能未來可能會出現新範式。
2024 年被稱為 " 具身智能元年 ",這一新興領網域正吸引着越來越多資本、公司和學者進入。
翻開不少玩家的履歷,會發現出身于圖形學背景的不在少數。比如國外李飛飛的 World Labs,又比如國内的群核科技,也就是酷家樂這個 3D 雲設計平台背後的公司。
MEET 2025 智能未來大會上,量子位邀請到群核科技的唐睿博士,探讨了從圖形學到具身智能,從模拟世界到訓練 AI 重構環境并進行智能互動、以及具身智能行業最新技術成果、發展現狀和終極形态展望等一系列最熱議話題。
唐睿博士是群核科技首席科學家、副總裁,KooLab 實驗室負責人,也是現任中國圖學學會專業委員會委員,圖形學與混合現實研讨會執行委員。
MEET 2025 智能未來大會是由量子位主辦的行業峰會,20 餘位產業代表與會讨論。線下參會觀眾 1000+,線上直播觀眾 320 萬 +,獲得了主流媒體的廣泛關注與報道。
核心觀點梳理
具身智能與 AI 的區别:具身智能不僅通過螢幕互動,還能與環境中的物理世界進行互動。它可能包含手、感官(如攝像頭、嗅覺、觸覺)以及行動能力。
具身智能不一定需要人形,成熟的具身智能實現如自動駕駛汽車,并不要求具有人類的外形。
并行計算降低了模拟人腦和物理世界的成本,邊際計算在圖形繪制和機器人訓練中起到了關鍵作用。
投身具身智能,圖形學背景的公司和個人在模拟世界方面有先天優勢。
從内容創作的角度講,Sora 算是物理世界模拟器之一,但在具身智能領網域,它還缺少對物理規律的理解和約束。
當前具身智能的技術進展,四個核心器官的發展:" 腦子 "(決策系統)在知識面和理解能力上已超越人類。" 眼睛 "(傳感器技術)極為先進,具備多種感知能力。" 手腳 "(運動能力)在靈活性和效率上遠超人類。整體的協調性正在推動新技術和新數據產生方式的誕生。
期望的具身智能終極形态:類似于自動駕駛汽車的延伸,具身智能最終可能成為了解用戶并主動服務的管家機器人。
以下是唐睿博士在 MEET 大會現場圓桌論壇的 QA 實錄,為了完整體現他的思考,在不改變原意的基礎上,量子位對問答部分進行了編輯整理,希望能給你帶來更多啟發。
從圖形學到具身智能
唐睿:大家好,我是唐睿。我主要研究領網域是計算機圖形學、人工智能和具身智能,最早的時候在群核科技做酷家樂產品,做真實感繪制,屬于圖形學領網域。
當我們的用戶量、用戶數據增加了以後,我發現設計師設計的場景非常逼真、非常接近真實,我就有了一個想法——這種逼真的場景,為什麼我們自己不能用起來呢?
它也可以像自動駕駛那樣,因為自動駕駛裡面也 sim-to-real,在仿真網域裡面做訓練和學習,甚至還有駕駛技能驗證,然後我就開始接觸具身智能行業。
我覺得具身智能和 AI 最大的一個區别,是從芯片、顯示器,内存、顯存裡面走出來,走到我們環境裡面。
它不只是有一個腦子,僅僅通過螢幕和我們互動,還會有手、感官,比如說攝像頭,甚至嗅覺、觸覺能力,也有行動能力,能夠和我們所處的外部物理世界互動。
雖然大家覺得具身智能上面寫了一個 " 身 " 字,但我覺得可能不一定需要人形,它只要有相應的技能就可以,像特斯拉,或者自動駕駛的汽車,就是比較成熟且具象的具身智能的實現。
并行計算與邊際計算更好模拟世界
量子位:唐睿博士,雖然你們不是具身智能起家的,但是現在讨論具身智能繞不開你們,特别是李飛飛開始創業做空間智能之後,你們是被提及最多的一家中國的公司,你怎麼看待這件事情?
唐睿:我其實最開始是做圖形學的,我現在相當于是半只腳踏進具身智能,或者希望支撐具身智能。
我們最開始發現這個產業要素的變化的時候,可能會更早一些。從圖形學角度出發,在深度學習或者說現在大家認知的人工智能出現之前,我覺得算力的迭代體系是指令級的優化,速率的優化體系,就是 CPU 的優化邏輯。
那會兒也有并行計算,但是并行計算應用的產業很單一,就是好萊塢的 CG 電影,再加上大家玩的單機或者是高畫質的遊戲,是最主要支持 GPU 并行計算的產業,這也是黃教主比較 Struggling 的時間段。
有了 AI 或者深度學習加成以後,算力的迭代體系就開始從指令級的迭代方向轉變為并行計算的迭代方向,這也導致并行計算的成本會降到很低很低,相對于以前的 980 或者說 1080 的時代,現在的并行計算的算力成本已經很低了。
我最開始是做圖形的,但我博士期間接觸過模式識别和以前的 Rule-based 的機器學習。我們覺得并行計算無非就是模拟兩件事情,一直到現在也是,一個是模拟人腦,通過深度學習已有的知識,先驗的知識去預測未來,或者預測不同的模态。
另外一種是光的仿真,比如說我們酷家樂在做的設計軟體,是模拟光在物理世界中的一個傳播,把還沒有建好的房子畫出來,然後給業主去看。
具身智能裡面還有很多物理仿真,大家會用 MuJoCo 去做,比如物理碰撞、 互動仿真。所以邊際計算就是在這兩個領網域裡面去用的。
最早的時候我們做圖形繪制,2015 年、2016 年的時候有一次去英國帝國理工大學,和我的師兄一起讨論。
原本機器人在現實世界裡面獲取到的結構化數據是有限的,而你們公司有數百萬的設計師,每天都在產出數萬甚至幾十萬的設計場景,而且非常逼真,為什麼我們不把它拿過去給機器人做訓練,除了人可以在這個場景裡面看,機器人也可以在這個場景裡面看。
△2018 年,群核科技與帝國理工等科共同推出 interiorNet 數據集。這是當時全球最大的室内場景認知深度學習數據集。
打一個比方,大家有沒有想過,很多年前出現了 AlphaGO,後面又出來了 OpenAI Gym。AlphaGO 能做的一件事情是什麼,下圍棋,OpenAI Gym 後面能打星際争霸、打 Dota。
下圍棋、打星際、打 Dota,這對于人來說是多麼難的一件事情,有多少人下不好圍棋,有多少人打不好星際争霸,但是機器能打好。
然而如果讓機器去做洗碗疊被子,端茶倒水這些事情,會發現非常難。前段時間,美國的機器人公司發布了疊被子做家務的機器人,大家都為之歡呼,中間 gap 了大概有七八年。
核心的一個問題在于,下圍棋、打星際、打 Dota,都是在數字空間裡面,我們人類能夠給它提供訓練或者去做決策,去做演練,去產生數據的系統。
我們在做的一件事情,是我們想做下一個 OpenAI Gym 或者 AlphaGO,甚至 3D 界的 ImageNet 這樣一個 3D 物理世界的構造器,能夠讓我們的具身智能,我們的機器人,能夠在一個 AI 可互動世界裡得到足夠多的仿真訓練,讓整個行業的智能化,或者手眼腦的協調性的能力得到快速的迭代和更新。
量子位:有點像《黑客帝國》電影裡面道場的概念,在虛拟的世界裡面,很快地學會很高深的功夫。你們公司不是完全做具身智能的,你們怎麼看具身?回顧去年,您覺得這個產業裡最值得關注的進展是哪些事件?
唐睿:從一級市場角度來說,是很多投資人或者說很多錢進來了,但是從學術或者技術的視角來看,大家可以發現,很多原來做圖形學,或者是做 3D 視覺的技術同行已經開始邁入具身智能這個行業裡面。
包括李飛飛,以及她的前同事 Leo Guibas,Leo Guibas 是做 Geometric 和 3D 的非常鼻祖的斯坦福教授,還有 ImageNet 論文的作者蘇昊,他自己也創辦了 Hillbot,其實很多人都進入到具身智能這個行業。
為什麼我們這些圖形學的人會來進入到這個行業,我剛才說的并行計算,無非是兩件事情,是模拟世界或者模拟人腦,我們圖形學的人可能會覺得在模拟世界這個事情上,我們有比較先天的優勢。
量子位:最近這兩天 Sora 新版本出現後引發了熱烈讨論,Sora 生成視頻的模式,是不是解決數據或者是物理世界模拟器的核心打開方式?它是不是一個世界模型?我們能不能通過這個方式,抵達 AGI Robots 最終的道路。你們之前有做類似方向上的工作,你們是怎麼看這個事情的。
唐睿:Sora 昨天剛剛發布了新版本,Demo 令人印象非常深刻。
我覺得 Sora 算是一種物理世界的模拟器。Sora 現在的商業策略,應該是做内容、視頻的創作。
昨天的新版本,我看到有灰塵、風吹草動,和水波紋的效果,人類看着已經非常真實了,或者說已經能欺騙一個圖形學的人的眼睛了。如果往内容創作的角度去說,應該說是最接近于這個領網域的物理世界模拟器。
但是從具身智能的角度來說,具身智能最終的落地會有本體和環境的互動,所以它對于物理的準确性要求遠超過藝術創作,或視頻内容創作的精度。
因此可能在内容創作角度它算是,但如果進入到具身智能或者說真正的仿真的領網域,它還比較欠缺,精度需要繼續提升,或者可以加入反饋學習再調整的模塊。
具身智能 4 個核心器官的發展現狀
量子位:如果具身智能把可以在家庭裡服務的 AI robots 作為一個終點,像馬斯克講的擎天柱機器人做的事情,那我們現在處于什麼階段?
類比手機,智能手機已經發展到高度成熟的階段,大致經歷了功能機、小靈通、大哥大,那麼今年具身智能處于什麼樣階段?
唐睿:其實我在具身智能這個本體以及智能化研究裡面,也只能算半個外行或者半個内行。
我期望的具身智能它未來終極形态可能是一個自動駕駛的延伸——不僅僅是一個助手,還是一個了解我的管家。
甚至具備主觀能動性,或者換種說法,不用 PUA 它,它看到一些情況就能主動給你幹活。
如果要精确定位我們現在處于什麼階段,我也不是特别專業。
我看到的情況是,如果把它類比人,手、眼、腳、腦子這樣的四個核心的器官來看的話,我覺得腦子某種程度上已經超越人類了,它的決策系統可能在創造性上還和人類差那麼一些,但至少從知識面,從他的理解能力,以及簡單或者說低層次、低維度的推理能力上,應該是超越人類的。
眼睛不用說了,各種傳感器,紅外的也可以安裝,可以實現千裡眼。
腳的話,機器狗的行走能力,只要電池夠用,我覺得是遠超人類的,而且它不光有腳,還可以飛,比如像大疆無人機。
手的話,關節靈活性這塊,我目前看到至少 Phi 的視頻讓我挺震撼的。
這 4 個器官,手眼腳的協調,用具身智能的術語講,就是從感知到決策,再到整個行動一體化的體系。
我覺得可能會有一些新的範式出來,未來的具身機器人訓練會像自動駕駛一樣,朝着端到端的方式去開發,其中也會產生新的數據生產方式,系統性的支撐具身智能在技術上或者產業上快速的迭代。
— 完 —
點這裡關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>