今天小編分享的科技經驗:具身智能出不來「 ChatGPT」,為什麼?,歡迎閱讀。
2024 年,具身智能無疑是 AI 領網域裡最火熱的新賽道之一。
相較于目前大語言模型在數字世界裡帶來的技術變革,具身智能描繪了通往未來世界的另一條路徑:大量具有智慧的機器人出現在真實的物理空間中,通過參與到人類生產、生活的各個環節,改變人類的生活方式。
但和大語言模型可以利用海量互聯網文本、影像資源進行快速學習不同,在具身智能領網域裡,機器人缺少低成本、高效率、多樣性、可泛化的學習數據。
如果只基于 Transformer 架構的大語言模型(如 ChatGPT),人類無法實現具身智能。海量物理正确的訓練數據如何快速獲取,是邁向具身智能前的世界級難題。
13 年前,黃曉煌回國創業。回國前,他在美國伊利諾伊大學學習 GPU 計算,也在英偉達做過雲計算。他一開始的創業方式,是希望用 GPU、雲計算來做物理仿真,但在當時,極少有人可以理解 GPU 通用計算的價值。于是,黃曉煌用 GPU 進行光學仿真,并應用對家裝場景裡,把過往需要幾十分鍾的渲染提速到了 10 餘秒,自此開始了群核科技的創業之路。
多年後,憑借着在家裝渲染、工業 4.0 生產對接中積累的海量數據,在具身智能的技術巨浪襲來時,群核科技終于脫下「家裝公司」的外殼,浮出水面。他們希望可以在數字世界和物理世界中間,搭起一道橋梁,通過海量可互動的、物理正确的三維數據,推動具身智能的發展。
以下是群核科技聯合創始人兼董事長黃曉煌在 IF 2025 主舞台的演講全文。在演講中,黃曉煌分享了群核科技的創業故事,以及他們對具身智能時代的思考。由極客公園整理。
ChatGPT 解決不了的 「疊被子困境」
大家好,我是極客公園的老朋友,來自群核科技的黃曉煌。今天我介紹的主題是:如何讓 AI 從數字世界走向物理世界。
大模型到來之後,所有人都想知道它能為我們做什麼。我們的下一代已經成為了「AI 原生娃」。我女兒剛學會認字,但她已經能很自然地對着各種鏡子和螢幕喊「小度小度」或者「小愛同學」了。
但他們目前還只能跟虛拟人物進行溝通,我們更希望孩子們跟物理世界有更多互動,有真實的陪伴。可惜即便 AI 現在已經可以吟詩作畫,但就算疊被子這麼簡單的家務,機器人都實現不了。
當我們談到具身智能或者機器人的時候,「疊被子困境」是一個非常典型的場景。
目前的 ChatGPT 大語言模型,可以很容易地讓機器人理解人類的指令,「給我疊一個被子」,它也可以通過視覺判斷哪床被子是疊好的、哪床被子沒疊好,但它很難執行。或者當它學會疊一床被子後,換個形狀可能就又不會了。
機器人的大腦在數字世界裡,但身體卻在物理世界中。解決這類問題,最關鍵的是在物理世界和數字世界裡面建立一個橋梁。而 ChatGPT 一類的大語言模型是無法實現的,我們需要一個全新的大模型。
讓機器人正确理解物理世界,關鍵是要有海量可互動的三維數據。很多大語言模型都是根據互聯網上的語料信息、圖片或視頻訓練出來的,但這些内容只是一堆靜态的記憶,訓練出來的東西跟物理世界是相違背的。
這裡有一個簡單的例子,左邊是由 Stable Diffusion 大模型生成的卧室場景,右邊是由我們的矩陣 CAD 引擎生成的。乍一看都挺漂亮的,但左邊這張存在多處物理不正确的地方:比如有的床頭櫃懸空、有的櫃門無法打開。我們需要在大模型腦海裡呈現右邊這種内容,來指導真實的生產制造。
Diffusion 模型生成的圖片和視頻,目前還存在和許多物理 bug | 圖片來源:群核科技
群核的創業之路:家裝公司收到矽谷來信
說說我的個人經歷吧。我一開始在美國伊利諾伊大學香槟分校學習 GPU 高性能計算;後來去英偉達做了 CUDA;回國後成立群核科技,做了 3D 雲設計平台;現在又在關注具身智能。
經常有朋友問我,為什麼你選擇這樣的創業路線?我想說,在中國創業沒辦法太陽春白雪,要腳踏實地跟着時代走。
剛開始創業的時候,我想用 GPU、雲計算來做物理仿真。但是回國一看,發現當時投資圈熱門的都是移動互聯網、O2O,我所想做的項目根本融不到錢。跟投資人講 GPU 通用計算,在那個年代幾乎就是對牛彈琴,更不要提物理仿真了。
後來,我們想到了用 GPU 來做光學仿真,把原來需要幾十分鍾、一個小時的效果圖渲染提速到了 10 秒鍾,為家裝設計師提速。這個「家裝 OTO」的概念,很快成為了資本最推崇的項目,幫我們融到了很多資金,讓酷家樂成功上線并成為了設計師首選的設計工具。
下一步,我們抓住了工業 4.0 改革裡,傳統工廠打造柔性生產線的需求,用我們的數據幫助工廠進行更新。我們用物理仿真、數字孿生,把每一件商品拆解成一個個零件,通過流水線機器人以及傳送帶實現柔性生產。
但這依然不夠,因為這些工廠裡所有的機械臂都是沒有智慧的。你告訴它往左就往左、往右就往右,機械臂是沒有智能的。一旦進行微小的改動,所有一切都要重來。所以,現在的無人工廠實際上還不是真正的無人工廠。
那段時間我非常苦惱,但我們已經見識到了物理正确數據的價值。直到有一天,我看到馬斯克提出用人形機器人在工廠生產汽車,就覺得工業 4.0 的下一步是把流水線機器人變成人形機器人。我覺得這是未來,而群核科技就是這些所有機器人訓練的「道場」。
群核科技的空間智能探索之路 | 圖片來源:極客公園
這些年我們做 3D 雲設計平台,盡管路徑一些曲折,但也積累了海量的三維數據:3.2 億個 3D 模型、不計其數的物理正确的三維場景、月活接近 8000 萬,服務了 200 多個國家和地區。我們在這個過程中始終相信,物理正确的空間數據是可以用來訓練大模型的,我們的科研人員也一直在訓練,在等待一個機會。
2018 年,我們的科研人員跟帝國理工、南加州大學共同發布了一個室内智能數據集方案。這是當時全球最大的室内場景認知深度學習數據集,一下子在學術界很熱。
有一天,我們收到了一封矽谷最大公司的郵件,希望跟我們進行空間智能的合作。當然我們甚至懷疑是騙子。幾萬億美元的大公司,怎麼會找一家創業公司合作空間智能。但這的确是真的。在合作的過程中,我們發現了這些大公司在解決了算力、算法問題之後,他們面臨的問題是,缺少海量的、可互動的、物理正确的三維數據。
我們跟目前全球這個領網域最靠前的公司基本都達成了合作。這兩年,中國的空間智能、具身智能也爆發式地增長,我們也跟國内頭部公司達成了合作。這個時候,我覺得技術奇點到來了,我們的機會也來了。
具身智能的世界級難題:數據
我們發現,現在不管是空間智能還是具身智能,有四個最關鍵的問題需要解決:算法、算力、數據、機器人硬體。
算法層面,目前是百花争鳴的狀态,有非常多算法。
算力層面,國外以英偉達為代表,國内也有地平線等公司在快速地解決這個問題。我覺得算力已經過了技術的奇點,可以支撐人造的智慧了。
機器人硬體層面,中國更是獨霸全球。
而目前世界級難題的是:如何給機器人提供用來訓練的可互動的數據?這就是我們要去解決的。
群核科技聯合創始人兼董事長黃曉煌 | 圖片來源:極客公園
目前用來訓練具身智能的方式,主要有兩種:
第一種,以斯坦福大學的 Moblile Aloha 為代表,它通過用設備來采集人在物理空間中的動作,來訓練機器人。但是它的采集成本非常高,而且空間非常受限。
第二種,也是目前學術界比較火熱的,通過仿真數據來做機器人的訓練。目前新一代的算法論文都是基于這個邏輯,李飛飛的文章也都是這個邏輯。因為它才真正可以實現在海量的空間裡面做物理訓練,讓機器人能夠擁有足夠多的适應性。
相比真實的訓練環境,仿真訓練主要有以下四個巨大的優勢:
第一,低成本。假如用一個真實的空間訓練一個機器人,那麼每訓練一個場景都要蓋一個真實的房間,那這個成本實在太高了。
第二,高效率。在物理世界裡,時空是确定的。如果訓練一個機器人需要 1 天,那麼訓練 1 萬次就得 1 萬天,時間沒有辦法壓縮。但在數字世界裡,時間是可以被壓縮的,物理世界裡要用 1 萬天跑完的數據,數字世界裡也許 1 天就可以跑完。
第三,多樣性。在現實世界裡面,要找到各種各樣不同場景是非常困難的。如果我們想訓練一個機器人去火星上幫人類幹活,但沒有辦法先把一堆設備送到火星上去提前訓練。合成數據解決了多樣性問題。
第四,可泛化性。李飛飛發表的文章裡提到了「數字表親」的概念,可以生產類似的場景進行訓練,從而實現舉一反三。否則我們訓練出來的機器人只能在一模一樣的房間裡幹活,離開了那個房間,還是啥都不會。
相比真實場景,仿真數據用于具身智能訓練擁有諸多優勢 | 圖片來源:極客公園
那麼,群核科技的核心優勢是什麼?我們為什麼能一起參與這個有意思的征程呢?
我們通過多年的 3D 雲設計平台,積累了海量數據,用這些數據訓練了自己 CAD 的大模型。這些大模型可以閱讀人類的 CAD 檔案、圖片、手繪等,然後把這些内容再轉換成物理正确的空間場景。我們也自建了 1 萬多台高性能計算伺服器,專門用來訓練、推理、渲染。我們希望用物理正确的合成數據,來幫助所有具身智能的機器實現訓練。
今年,我們推出了新版本的 SpatialVerse 來賦能 AI 空間智能。因為傳統的三維數據太「幹淨」了,沒有辦法直接用來訓練機器人。我們需要 AI 對這些原始的數據進行物理增強:告訴機器人哪裡是抽屜可以打開,可以打開多少程度;物體的重力是多少;哪裡是門可以打開,是往裡開還是往外開等等。
其次,在機器人訓練的時候需要有各種語義信息在裡面,過去都是人工标注,現在要用 AI 給它自動标注好。
另外,環境加強也很重要。我們平常人生活的環境不是像 3D 世界裡面那麼純淨的,包括你的房間裡面有紙巾、有動物的毛發等,但是在數字世界裡沒有,你要把它以某種方式加回去,讓一個空間不是一個純淨的空間,它需要更接近于真實的空間。
最後是隐私問題。前陣子全球最著名的公司之一被曝出在采集物理數據的時候,不小心拍到了房屋主人上廁所的視頻。合成數據就沒有這個問題,它不會涉及到人類隐私的問題。
我們今年和上海人工智能實驗室一起發布了具身智能訓練的新範式,多模态的 3D 數據解決方案,就是大規模的動态場景生成,渲染 + 物理真實感以及高分辨率的場景分割。這裡面的空間場景都是基于我們 SpatialVerse 的解決方案。
具身智能未來将進入更多場景中 | 圖片來源:極客公園
我以上展示的這些肯定不是空間智能、具身智能的全部,它只是開始。具身智能還會進入到我們更多的場景,除了在我們工廠裡面工作,還會進入到我們的商業空間裡、辦公室裡,家庭裡。未來,我們的生活場景裡面會充滿了空間智能、具身智能的機器人。
當然,所有的使用場景都需要豐富的物理正确的三維數據給它們訓練,因為大家不希望一個沒有訓練過的機器人在你家裡面。一個 300 公斤重的機器人,萬一發起瘋來,誰都受不了,所以我們得确保它在足夠多的空間裡訓練過,才能夠進入到我們工作生活的環境裡,這是非常重要的。
我相信未來肯定是具身智能、空間智能的時代,我相信從生產制造再到商業空間再到我們家庭場景,它會充斥到我們每一個角落,就像疊被子那一刻被機器人完美地解決了之後,機器人就會解決我們日常生活中各種各樣所需要的問題,我也希望群核科技能夠成為中間重要的推力之一。
歡迎各位小夥伴跟群核一起走向技術的彼岸。