今天小编分享的科技经验:名不见经传的杭州公司,为何被硅谷巨头们疯狂追捧,欢迎阅读。
一家布局底座技术的公司,如何长出具有物理正确特性的空间数据能力?
文|徐鑫
编|任晓渔
2019 年的一天,杭州拱墅区莱茵矩阵国际楼的一个写字间里,一名算法工程师打开邮箱时,一度怀疑自己收到了诈骗邮件。
全英文的邮件,落款和公司后缀俨然是硅谷某家喻户晓万亿美元市值巨头。对方发出了合作邀约。这是群核空间智能平台与它的第一个硅谷巨头客户初次接触时的小插曲。
当时群核空间智能平台产品的理念还停留在一篇论文中。这篇发表于 2018 年的论文里,群核科技基于自身业务海量的室内空间数据积累,联合英国帝国理工大学、美国南加州大学,在 BMVC 会议推出了 InteriorNet 数据集。
在行业内已有的开源数据多为静态、不可互動数据的背景下,这一全球最大室内场景认知深度学习数据集,为室内空间的机器人训练探索提供了数据基础。此后的几年里,硅谷巨头们及一批具身智能企业纷纷向群核伸出了橄榄枝。
20 日,群核科技正式在第九届酷 + 科技峰会上发布了这款面向空间智能技术训练需求的新产品,群核空间智能平台。从能力储备到成熟上市,这一历程也暗暗押中了群核科技这家公司发展的韵脚——一家技术型公司可以基于市场需求,不断从技术底座里培育出出乎意料,又合乎逻辑的产品。
不过,为什么是群核科技?这样一家名不见经传的公司,为什么具备硅谷巨头们也都需要的空间智能数据能力?
01
群核科技,是谁?
大众可能对群核科技不太熟悉,但很多人对酷家乐并不陌生,它是群核科技的技术底座成长出来的产品之一。
作为一款在国内家居设计师群体中家喻户晓的 3D 空间设计平台,酷家乐 2013 年横空出世后,把原来家居设计行业里的设计出图周期,从以周为部門压缩到以天为部門。同时大大简化的操作过程,用户通过拖拽 3D 模型和简单布局就能快速完成设计、渲染过程。
" 天下武功,唯快不破 ",极致的效率和更简单易用的体验,使得酷家乐在家居设计、建筑、电商、连锁商业、文博展览、广告营销多个行业里落地应用,实现设计生产提效。
极致的效率,毫无疑问是群核系产品身上最大的标签之一。而这个标签,来自群核科技自创立之初的技术底座。群核的英文 "manycore" 是一种 GPU 架构名,今天国内外都在加速建设更大规模算力集群,增加计算单元来提高计算速度已是行业共识,但在 2011 年,高性能计算还是小众话题,当时,计算机识别一只猫的图片需要 19 个小时。
而群核科技的三位创始人黄晓煌、陈航、朱皓,同为美国伊利诺伊大学硕士同学,有着 GPU 并行计算及计算机影像图形学背景。他们离开英伟达、微软、亚马逊等海外大厂回国创业的契机,也在于他们研发出了一款物理正确的快速渲染器,想在国内找到这种高性能计算的应用场景。
家居设计并不是一开始瞄准的市场,而是在产品 - 市场匹配及商业模式探索后,群核科技为高性能计算技术找到的第一个落地场景。
这个场景痛点明显,渲染设计图片又需要消耗大量的算力,群核科技解锁了 GPU 能力,也成就了家居行业的效率革命,渲染出图的成本大幅降低,渲染的速度大幅提升。这款产品也很快在设计师群体中迎来了市场爆发。
与酷家乐在空间设计领網域向更广泛人群和更多场景渗透同步,群核科技在计算机图形学和渲染领網域里的底层技术能力,也同步在进化。
家居设计方案里渲染出的图片的逼真程度及效果关系到消费者买单,为了能更好地服务这个场景里的用户,群核围绕着 GPU 渲染能力逐渐形成了一个强大的 3D 渲染引擎,它具备光线追踪、端云一体等能力,叠加上 AI 技术,可实现逼真且实时的极速渲染。
群核科技 CEO 陈航在酷 + 科技峰会上用 " 群核启真渲染引擎 " 给它命名。他略显动情地谈起 " 启真 " 的由来。群核科技董事长黄晓煌和 CEO 陈航的本科母校,浙江大学有个启真湖,它坐落在图形影像国家重点实验室旁,这也是群核科技梦想开始的地方。
" 启真引擎要解决的是把人们腦海中对未来的想象,在数字世界中构建出来,并保持它在 3D 可视化维度的物理正确性。" 陈航说。
与更逼真、高效的渲染能力同步,群核科技在酷家乐设计方案对接柔性制造,落地生产的过程里,还具备了让设计方案做到 3D 结构层面物理正确的能力,群核科技将之命名为群核矩阵 CAD 引擎。
具体而言,这个引擎能把一张定制柜设计图,转换成一个 3D 空间方案。它通过几何参数引擎、BIM 引擎,还能直接落地到物理世界的生产施工环节。比如,一张定制柜图片,能够还原成工厂直接能生产的 3D 结构。
之所以能做到这一点,在于背后有群核自主研发的百亿级参数的多模态 CAD 大模型。这个参数驱动的模型,相比语言大模型对空间描述的模糊与不确定性,对空间有更准确和结构化的表述。陈航认为,这是 AI 在物理世界产生价值的基础," 所见即所得 " 的世界不再遥不可及。
被硅谷巨头们看中的群核空间智能平台,是群核两大引擎底座能力,在新的市场需求和行业痛点下,结出的又一枚果实。
就像酷家乐是 GPU 计算能力在家装市场找到的应用
场景一样,基于酷家乐平台积累多年海量的渲染设计方案而来的空间智能数据平台,是群核科技两大底座引擎打磨出的
有物理正确特性的空间数据能力
,在具身智能等机器人训练领網域找到的落地场景。
它不是规划设计的结果,而是布局底座技术的公司,自然而然的创新路径。
02
与 Sora 不同的世界模拟器
今年 2 月 Sora 发布后,人工智能行业掀起了一场有关 Sora 是否是世界模拟器、Sora 能否理解物理世界以及 Sora 何以成为世界模拟器的讨论。焦点主要在 Sora 能否遵循物理正确,从而真正理解和认知物理世界上。
虽然有人盛赞 Sora 是一个数据驱动的物理引擎,是可学习的模拟器或 " 世界模型 "。但 Meta 首席科学家 YannLeCun 就认为,基于语言提示生成的看起来逼真的视频,并不意味着系统真正理解物理世界," 内容生成 " 实则与世界模型中进行的因果预测非常不同。
银河通用大模型负责人张直政也对通过 Sora 的视频生成实现 AGI 持怀疑态度。" 数字世界中可以通过预测下一个 token 的方式达到一定的通用型智能 ",张直政在酷 + 科技峰会圆桌环节指出,但 AI 要想向 AGI 发展,达到新的层次,就得用物理世界的数据进行学习和互動。
当下,具身智能被业界视为世界模拟器最大的应用场景之一。与传统机器人预定义一些动作,再重复播放这些动作来完成自动化不同,具身智能是把机器人的动作和语意及用户的指令打通,让机器人能泛化理解各种指令并在物理世界完成各项操作。
在这个场景里,世界模拟器可用来生成大量的多模态动作数据帮助机器人训练,同时在投放到物理世界之前用来大规模验证各类策略是否有用。
这一目标下,业界普遍认为,作用于物理世界的具身智能世界模拟器也要能满足一系列标准。比如要有纹理细节。有了这些细节,才能让具身智能从语义上区分不同的物体。物体的形状也很重要,它会影响机器人如何去接触物体,进而规划接触的位置。材质则可能影响到具身智能抓物体时的力度。比如,表面很光滑,为了防止滑落,要用很大的力;而表面粗糙的时候,轻轻一夹就能被拎起来。
除了对纹理、形状、材质能精确仿真,张直政提到,具身智能模拟器还要能准确模拟机器人与不同的材质、形状、纹理的物体互动时,环境、物体状态会发生的变化。同时,这些变化还必须要符合力学、物理学规律,机器人才能形成准确的互動动作。
相较而言,Sora 很难满足这些条件。人们看到,Sora 生成的许多内容缺乏物理正确特性,看上去更像是人类梦境的生成,比如一只在咖啡杯的海中乘风破浪的巨轮,水杯突然变成气球等场景,都不符合现实世界规律。
张直政分析,Sora 视频生成模型刻画的只是视频在视觉感知上的连续性,它没有对动作进行建模,对于具身智能来讲维度远远不够。比如在一个 Sora 生成的视频里,人去抓椅子,手还没有到椅子就飞起来了。这种场景如果用于训练机器人,可能会让机器人误以为爪子有某种引力。
" 在做具身智能训练时,甚至还需要专门把这种不符合物理规律的偏差摘出,防止注入到具身智能模型中。" 张直政说。
群核科技黄晓煌则有不同的视角看 Sora。他回想起了十年前还在求学时,那时业界探讨高性能计算应用有两大前沿场景,一条是模拟人腦活动或神经网络的研究,另一条则是基于物理世界的模拟渲染,这是计算机认知世界的两种方式。
前一条路径下,经过多年发展 ChatGPT 已经用高性能计算在模拟人腦上获得了巨大的突破,现在 Sora 也在这条路径上试图通过互联网上的海量视频数据,去做自监督学习并预测,从而理解物理世界。
群核科技无疑走了后一条路。在渲染还原物理世界这条路径下,群核基于此前海量工业级设计軟體海量数据方案的积累,产生大量物理正确的空间数据。而 " 物理正确 " 这一点,使得群核科技相比 Sora,距离帮助 AI 落地物理世界更近。比如,在材质渲染能力上,群核能渲染出真实物理世界中 99% 的材质,包括大量的有机物以及无机物。
当下业界对如何才能通向具身智能,在技术路径上还没有走向收敛。在仿真路线之外,也有一些技术路线下会先用基座大模型学习大量的互联网数据的视频,来获得很多人类的先验知识。但这一步之后,机器人依然需要与真实的物理世界互動,或者通过符合物理真实的数据去进行强化学习等,才能真正理解物理规律。
可以说,让 AI 从数字世界走到物理世界,与物理世界或符合物理世界规则的虚拟环境互动,是具身智能落地的重要一步。而要实现这一点,构建一个开放、标准化、低成本且便于复制的数据平台,也是业界共同的心声。
03
让 AI 加速进入物理世界
行业上下已经意识到了构建便利于机器人训练,加速相关数据流转应用的重要性。
一些企业如巨头英伟达就在数据打通上不断发力。今年的 SIGGRAPH 大会上,英伟达就发布了适用于 OpenUSD、几何体、物理学、材质等的生成式 AI 模型与 NIM 微服务。借助 NVIDIANIM 微服务,可用于三维视觉、建筑、设计、制造等诸多行业数据交换的开源軟體平台 OpenUSD 的功能增强,可访问性提升,各个行业能更便利去创建基于物理学的虚拟世界和数字孪生。
而群核科技自 2018 年收到硅谷巨头的合作邀约后,来自人工智能企业和具身智能公司机器人训练的数据服务需求不断。
疫情期间是市场需求爆发的一个重要节点。黄晓煌观察到,此前许多机器人训练多是基于企业自建的物理模拟环境里进行,行业内对合成数据有一些质疑的声音。但是疫情期间许多工作无法进行,许多机器人公司被迫转到虚拟环境进行仿真训练。
而随着更多企业转变训练方式,人们对基于合成虚拟环境训练机器人又有了更多的认知。" 单一的合成数据与单一物理空间训练比,物理空间的训练效果会更好。但如果拿 100 份合成数据去训练,它的准确度是比单一物理空间训练出来的效果要好。" 黄晓煌说。
知名人工智能学者李飞飞上个月发表的论文进一步为机器人基于虚拟合成数据训练降低了门槛。论文中指出,基于虚拟环境训练机器人时,以更低的成本提供更多相似训练场景的分布,能实现更好的跨網域泛化。
不断涌入的市场需求也驱动着群核科技去打磨产品,目前,群核智能空间平台已经从最初给一些企业提供数据集,发展为提供一个庞大的平台,为 AIGC、具身智能、AR/VR 等企业开放物理正确的 3D 空间数据资产以及空间认知解决方案。
目前这个平台上拥有全球最大的室内场景认知深度学习数据集,并具备模拟室内真实特性、自动分割标注、场景增强及多平台对接等多项核心能力。比如,模拟室内真实特性,可以赋予模型密度、摩擦力、弹性、阻尼等真实的物理性质信息,同时还可以对活动部件进行可活动的物理约束。
而自动化分割和标注技术,可根据研究者需求定制化分割和标注数据,定制化输出针对不同行业所需要的数据集。以处理卧室场景的 3D 数据为例,系统能细分为床、枕头、毛毯等基础要素,并生成精准语义标签。
这些都为各类机器人公司打造出更智能的产品提供了助力。之前一家室内清洁机器人公司非常苦恼,在家庭场景里机器人无法识别动物的粪便,遇到了猫屎狗屎清洁后弄得家里一团糟。以前企业为了采集数据,厂家得组建个数十人团队,耗时数月,还得外包给第三方,整个过程繁琐又烧钱。
而与群核科技合作后,基于群核的空间数据能力,45 个工作日即生成了数万组高质量的 3D 模型数据集和百万组精细化图片数据数据交付即可用,帮助企业大幅减少数据侧投入,提高 AI 项目进度。目前美的、追觅、科沃斯都已经与群核科技进行空间智能训练相关的项目合作。
除了大量的企业在利用群核的平台能力,在学术界群核科技的空间认知能力也在构建应用生态,助力具身智能开发者加速研究进程。
针对机器人训练中存在的数据采集效率低下、场景复用性差、训练风险高以及评估困难等痛点,2023 年,群核科技联合英特尔实验室、西班牙计算机视觉中心和慕尼黑工业大学共同开发了一个名为 SPEAR 的高物理正确与视觉真实的环境数据合成与机器人训练仿真平台。
SPEAR 依托于群核科技庞大的 3D 模型数据库和先进的渲染技术,构建了一系列高精度且具有物理互動特性的虚拟环境。这些虚拟不仅视觉效果逼真,同时还确保了物理层面的真实性,为研究人员提供了一个既安全又高效的学习与测试空间。开发者可以更轻松创建多样化的真实模拟场景,快速迭代算法设计。
" 信息是被浪费的物理资源的替代品 ",7 年前密歇根大学 Michael Grieves 教授《智能制造之虚拟完美模型》中的这个断言,阐述了数字孪生和虚拟世界对物理世界带来的资源节省价值。当下,物理正确的数据又正在为具身智能等 AI 加速落地物理世界,提供助力。
而正确反映物理世界并影响物理世界,群核科技走的是一条与 Sora 不一样的路。而能走通这条路,来自于这家公司对根技术的投入,它如同发动机,不断给企业注入新的可能。
© 本文为数智前线(szqx1991)原创内容
进群、转载或商务合作联系后台
文章精选
>