今天小編分享的科技經驗:名不見經傳的杭州公司,為何被矽谷巨頭們瘋狂追捧,歡迎閱讀。
一家布局底座技術的公司,如何長出具有物理正确特性的空間數據能力?
文|徐鑫
編|任曉漁
2019 年的一天,杭州拱墅區萊茵矩陣國際樓的一個寫字間裡,一名算法工程師打開郵箱時,一度懷疑自己收到了詐騙郵件。
全英文的郵件,落款和公司後綴俨然是矽谷某家喻戶曉萬億美元市值巨頭。對方發出了合作邀約。這是群核空間智能平台與它的第一個矽谷巨頭客戶初次接觸時的小插曲。
當時群核空間智能平台產品的理念還停留在一篇論文中。這篇發表于 2018 年的論文裡,群核科技基于自身業務海量的室内空間數據積累,聯合英國帝國理工大學、美國南加州大學,在 BMVC 會議推出了 InteriorNet 數據集。
在行業内已有的開源數據多為靜态、不可互動數據的背景下,這一全球最大室内場景認知深度學習數據集,為室内空間的機器人訓練探索提供了數據基礎。此後的幾年裡,矽谷巨頭們及一批具身智能企業紛紛向群核伸出了橄榄枝。
20 日,群核科技正式在第九屆酷 + 科技峰會上發布了這款面向空間智能技術訓練需求的新產品,群核空間智能平台。從能力儲備到成熟上市,這一歷程也暗暗押中了群核科技這家公司發展的韻腳——一家技術型公司可以基于市場需求,不斷從技術底座裡培育出出乎意料,又合乎邏輯的產品。
不過,為什麼是群核科技?這樣一家名不見經傳的公司,為什麼具備矽谷巨頭們也都需要的空間智能數據能力?
01
群核科技,是誰?
大眾可能對群核科技不太熟悉,但很多人對酷家樂并不陌生,它是群核科技的技術底座成長出來的產品之一。
作為一款在國内家居設計師群體中家喻戶曉的 3D 空間設計平台,酷家樂 2013 年橫空出世後,把原來家居設計行業裡的設計出圖周期,從以周為部門壓縮到以天為部門。同時大大簡化的操作過程,用戶通過拖拽 3D 模型和簡單布局就能快速完成設計、渲染過程。
" 天下武功,唯快不破 ",極致的效率和更簡單易用的體驗,使得酷家樂在家居設計、建築、電商、連鎖商業、文博展覽、廣告營銷多個行業裡落地應用,實現設計生產提效。
極致的效率,毫無疑問是群核系產品身上最大的标籤之一。而這個标籤,來自群核科技自創立之初的技術底座。群核的英文 "manycore" 是一種 GPU 架構名,今天國内外都在加速建設更大規模算力集群,增加計算單元來提高計算速度已是行業共識,但在 2011 年,高性能計算還是小眾話題,當時,計算機識别一只貓的圖片需要 19 個小時。
而群核科技的三位創始人黃曉煌、陳航、朱皓,同為美國伊利諾伊大學碩士同學,有着 GPU 并行計算及計算機影像圖形學背景。他們離開英偉達、微軟、亞馬遜等海外大廠回國創業的契機,也在于他們研發出了一款物理正确的快速渲染器,想在國内找到這種高性能計算的應用場景。
家居設計并不是一開始瞄準的市場,而是在產品 - 市場匹配及商業模式探索後,群核科技為高性能計算技術找到的第一個落地場景。
這個場景痛點明顯,渲染設計圖片又需要消耗大量的算力,群核科技解鎖了 GPU 能力,也成就了家居行業的效率革命,渲染出圖的成本大幅降低,渲染的速度大幅提升。這款產品也很快在設計師群體中迎來了市場爆發。
與酷家樂在空間設計領網域向更廣泛人群和更多場景滲透同步,群核科技在計算機圖形學和渲染領網域裡的底層技術能力,也同步在進化。
家居設計方案裡渲染出的圖片的逼真程度及效果關系到消費者買單,為了能更好地服務這個場景裡的用戶,群核圍繞着 GPU 渲染能力逐漸形成了一個強大的 3D 渲染引擎,它具備光線追蹤、端雲一體等能力,疊加上 AI 技術,可實現逼真且實時的極速渲染。
群核科技 CEO 陳航在酷 + 科技峰會上用 " 群核啟真渲染引擎 " 給它命名。他略顯動情地談起 " 啟真 " 的由來。群核科技董事長黃曉煌和 CEO 陳航的本科母校,浙江大學有個啟真湖,它坐落在圖形影像國家重點實驗室旁,這也是群核科技夢想開始的地方。
" 啟真引擎要解決的是把人們腦海中對未來的想象,在數字世界中構建出來,并保持它在 3D 可視化維度的物理正确性。" 陳航說。
與更逼真、高效的渲染能力同步,群核科技在酷家樂設計方案對接柔性制造,落地生產的過程裡,還具備了讓設計方案做到 3D 結構層面物理正确的能力,群核科技将之命名為群核矩陣 CAD 引擎。
具體而言,這個引擎能把一張定制櫃設計圖,轉換成一個 3D 空間方案。它通過幾何參數引擎、BIM 引擎,還能直接落地到物理世界的生產施工環節。比如,一張定制櫃圖片,能夠還原成工廠直接能生產的 3D 結構。
之所以能做到這一點,在于背後有群核自主研發的百億級參數的多模态 CAD 大模型。這個參數驅動的模型,相比語言大模型對空間描述的模糊與不确定性,對空間有更準确和結構化的表述。陳航認為,這是 AI 在物理世界產生價值的基礎," 所見即所得 " 的世界不再遙不可及。
被矽谷巨頭們看中的群核空間智能平台,是群核兩大引擎底座能力,在新的市場需求和行業痛點下,結出的又一枚果實。
就像酷家樂是 GPU 計算能力在家裝市場找到的應用
場景一樣,基于酷家樂平台積累多年海量的渲染設計方案而來的空間智能數據平台,是群核科技兩大底座引擎打磨出的
有物理正确特性的空間數據能力
,在具身智能等機器人訓練領網域找到的落地場景。
它不是規劃設計的結果,而是布局底座技術的公司,自然而然的創新路徑。
02
與 Sora 不同的世界模拟器
今年 2 月 Sora 發布後,人工智能行業掀起了一場有關 Sora 是否是世界模拟器、Sora 能否理解物理世界以及 Sora 何以成為世界模拟器的讨論。焦點主要在 Sora 能否遵循物理正确,從而真正理解和認知物理世界上。
雖然有人盛贊 Sora 是一個數據驅動的物理引擎,是可學習的模拟器或 " 世界模型 "。但 Meta 首席科學家 YannLeCun 就認為,基于語言提示生成的看起來逼真的視頻,并不意味着系統真正理解物理世界," 内容生成 " 實則與世界模型中進行的因果預測非常不同。
銀河通用大模型負責人張直政也對通過 Sora 的視頻生成實現 AGI 持懷疑态度。" 數字世界中可以通過預測下一個 token 的方式達到一定的通用型智能 ",張直政在酷 + 科技峰會圓桌環節指出,但 AI 要想向 AGI 發展,達到新的層次,就得用物理世界的數據進行學習和互動。
當下,具身智能被業界視為世界模拟器最大的應用場景之一。與傳統機器人預定義一些動作,再重復播放這些動作來完成自動化不同,具身智能是把機器人的動作和語意及用戶的指令打通,讓機器人能泛化理解各種指令并在物理世界完成各項操作。
在這個場景裡,世界模拟器可用來生成大量的多模态動作數據幫助機器人訓練,同時在投放到物理世界之前用來大規模驗證各類策略是否有用。
這一目标下,業界普遍認為,作用于物理世界的具身智能世界模拟器也要能滿足一系列标準。比如要有紋理細節。有了這些細節,才能讓具身智能從語義上區分不同的物體。物體的形狀也很重要,它會影響機器人如何去接觸物體,進而規劃接觸的位置。材質則可能影響到具身智能抓物體時的力度。比如,表面很光滑,為了防止滑落,要用很大的力;而表面粗糙的時候,輕輕一夾就能被拎起來。
除了對紋理、形狀、材質能精确仿真,張直政提到,具身智能模拟器還要能準确模拟機器人與不同的材質、形狀、紋理的物體互動時,環境、物體狀态會發生的變化。同時,這些變化還必須要符合力學、物理學規律,機器人才能形成準确的互動動作。
相較而言,Sora 很難滿足這些條件。人們看到,Sora 生成的許多内容缺乏物理正确特性,看上去更像是人類夢境的生成,比如一只在咖啡杯的海中乘風破浪的巨輪,水杯突然變成氣球等場景,都不符合現實世界規律。
張直政分析,Sora 視頻生成模型刻畫的只是視頻在視覺感知上的連續性,它沒有對動作進行建模,對于具身智能來講維度遠遠不夠。比如在一個 Sora 生成的視頻裡,人去抓椅子,手還沒有到椅子就飛起來了。這種場景如果用于訓練機器人,可能會讓機器人誤以為爪子有某種引力。
" 在做具身智能訓練時,甚至還需要專門把這種不符合物理規律的偏差摘出,防止注入到具身智能模型中。" 張直政說。
群核科技黃曉煌則有不同的視角看 Sora。他回想起了十年前還在求學時,那時業界探讨高性能計算應用有兩大前沿場景,一條是模拟人腦活動或神經網絡的研究,另一條則是基于物理世界的模拟渲染,這是計算機認知世界的兩種方式。
前一條路徑下,經過多年發展 ChatGPT 已經用高性能計算在模拟人腦上獲得了巨大的突破,現在 Sora 也在這條路徑上試圖通過互聯網上的海量視頻數據,去做自監督學習并預測,從而理解物理世界。
群核科技無疑走了後一條路。在渲染還原物理世界這條路徑下,群核基于此前海量工業級設計軟體海量數據方案的積累,產生大量物理正确的空間數據。而 " 物理正确 " 這一點,使得群核科技相比 Sora,距離幫助 AI 落地物理世界更近。比如,在材質渲染能力上,群核能渲染出真實物理世界中 99% 的材質,包括大量的有機物以及無機物。
當下業界對如何才能通向具身智能,在技術路徑上還沒有走向收斂。在仿真路線之外,也有一些技術路線下會先用基座大模型學習大量的互聯網數據的視頻,來獲得很多人類的先驗知識。但這一步之後,機器人依然需要與真實的物理世界互動,或者通過符合物理真實的數據去進行強化學習等,才能真正理解物理規律。
可以說,讓 AI 從數字世界走到物理世界,與物理世界或符合物理世界規則的虛拟環境互動,是具身智能落地的重要一步。而要實現這一點,構建一個開放、标準化、低成本且便于復制的數據平台,也是業界共同的心聲。
03
讓 AI 加速進入物理世界
行業上下已經意識到了構建便利于機器人訓練,加速相關數據流轉應用的重要性。
一些企業如巨頭英偉達就在數據打通上不斷發力。今年的 SIGGRAPH 大會上,英偉達就發布了适用于 OpenUSD、幾何體、物理學、材質等的生成式 AI 模型與 NIM 微服務。借助 NVIDIANIM 微服務,可用于三維視覺、建築、設計、制造等諸多行業數據交換的開源軟體平台 OpenUSD 的功能增強,可訪問性提升,各個行業能更便利去創建基于物理學的虛拟世界和數字孿生。
而群核科技自 2018 年收到矽谷巨頭的合作邀約後,來自人工智能企業和具身智能公司機器人訓練的數據服務需求不斷。
疫情期間是市場需求爆發的一個重要節點。黃曉煌觀察到,此前許多機器人訓練多是基于企業自建的物理模拟環境裡進行,行業内對合成數據有一些質疑的聲音。但是疫情期間許多工作無法進行,許多機器人公司被迫轉到虛拟環境進行仿真訓練。
而随着更多企業轉變訓練方式,人們對基于合成虛拟環境訓練機器人又有了更多的認知。" 單一的合成數據與單一物理空間訓練比,物理空間的訓練效果會更好。但如果拿 100 份合成數據去訓練,它的準确度是比單一物理空間訓練出來的效果要好。" 黃曉煌說。
知名人工智能學者李飛飛上個月發表的論文進一步為機器人基于虛拟合成數據訓練降低了門檻。論文中指出,基于虛拟環境訓練機器人時,以更低的成本提供更多相似訓練場景的分布,能實現更好的跨網域泛化。
不斷湧入的市場需求也驅動着群核科技去打磨產品,目前,群核智能空間平台已經從最初給一些企業提供數據集,發展為提供一個龐大的平台,為 AIGC、具身智能、AR/VR 等企業開放物理正确的 3D 空間數據資產以及空間認知解決方案。
目前這個平台上擁有全球最大的室内場景認知深度學習數據集,并具備模拟室内真實特性、自動分割标注、場景增強及多平台對接等多項核心能力。比如,模拟室内真實特性,可以賦予模型密度、摩擦力、彈性、阻尼等真實的物理性質信息,同時還可以對活動部件進行可活動的物理約束。
而自動化分割和标注技術,可根據研究者需求定制化分割和标注數據,定制化輸出針對不同行業所需要的數據集。以處理卧室場景的 3D 數據為例,系統能細分為床、枕頭、毛毯等基礎要素,并生成精準語義标籤。
這些都為各類機器人公司打造出更智能的產品提供了助力。之前一家室内清潔機器人公司非常苦惱,在家庭場景裡機器人無法識别動物的糞便,遇到了貓屎狗屎清潔後弄得家裡一團糟。以前企業為了采集數據,廠家得組建個數十人團隊,耗時數月,還得外包給第三方,整個過程繁瑣又燒錢。
而與群核科技合作後,基于群核的空間數據能力,45 個工作日即生成了數萬組高質量的 3D 模型數據集和百萬組精細化圖片數據數據交付即可用,幫助企業大幅減少數據側投入,提高 AI 項目進度。目前美的、追覓、科沃斯都已經與群核科技進行空間智能訓練相關的項目合作。
除了大量的企業在利用群核的平台能力,在學術界群核科技的空間認知能力也在構建應用生态,助力具身智能開發者加速研究進程。
針對機器人訓練中存在的數據采集效率低下、場景復用性差、訓練風險高以及評估困難等痛點,2023 年,群核科技聯合英特爾實驗室、西班牙計算機視覺中心和慕尼黑工業大學共同開發了一個名為 SPEAR 的高物理正确與視覺真實的環境數據合成與機器人訓練仿真平台。
SPEAR 依托于群核科技龐大的 3D 模型數據庫和先進的渲染技術,構建了一系列高精度且具有物理互動特性的虛拟環境。這些虛拟不僅視覺效果逼真,同時還确保了物理層面的真實性,為研究人員提供了一個既安全又高效的學習與測試空間。開發者可以更輕松創建多樣化的真實模拟場景,快速迭代算法設計。
" 信息是被浪費的物理資源的替代品 ",7 年前密歇根大學 Michael Grieves 教授《智能制造之虛拟完美模型》中的這個斷言,闡述了數字孿生和虛拟世界對物理世界帶來的資源節省價值。當下,物理正确的數據又正在為具身智能等 AI 加速落地物理世界,提供助力。
而正确反映物理世界并影響物理世界,群核科技走的是一條與 Sora 不一樣的路。而能走通這條路,來自于這家公司對根技術的投入,它如同發動機,不斷給企業注入新的可能。
© 本文為數智前線(szqx1991)原創内容
進群、轉載或商務合作聯系後台
文章精選
>