今天小编分享的互联网经验:对话灵宝CASBOT:人形机器人进工厂,从学习开始,欢迎阅读。
文 | 王方玉
编辑 | 苏建勋
当下,具身智能无疑是最热门的赛道之一。
高工产研(GGII)数据显示,今年 1 到 10 月,全球人形机器人领網域融资金额就突破了 110 亿元人民币,远超 2023 年全年。在一笔笔火爆融资背后,创业者们正集体向通用智能机器人的梦想发起冲刺。
大模型是人形机器人热潮的关键助推因素。大模型能力的出现,使机器人从功能机变成智能机,能够学习和适应环境,也为通用智能机器人注入了新的曙光。
今年以来,多家国产人形机器人公司发布首款人形机器人产品,并积极探索下游应用场景。而汽车工厂成为了人形机器人落地的首选——优必选机器人在蔚来、极氪工厂进场,傅里叶机器人在上汽通用工厂上岗……有投资人笑称:" 最近各家机器人都在向汽车厂里面送,汽车厂都快不够用了。"
与上述人形机器人厂商不同,灵宝 CASBOT 将首个落地的工厂选择在了联想集团的智能制造工厂,主要负责更为精密操作的笔记本的装配工作。
灵宝 CASBOT 是北京中科慧灵机器人技术有限公司旗下的人形机器人品牌,致力于研发面向场景落地的通用人形机器人和具身智能产品。11 月 13 日,灵宝 CASBOT 发布了首款全尺寸双足人形机器人 CASBOT01 ——一款多场景落地的通用类腦智能机器人。
发布会后,灵宝 CASBOT 联合创始人兼 COO 张淼、CTO 马世奎与 36 氪等多家媒体进行了交流。融资热、进厂热的背后,人形机器人产业发展到了哪一阶段?距离真正的通用机器人还有多远?灵宝 CASBOT 给出了自己的判断和思考。
以下为 36 氪与灵宝 CASBOT 的交流实录(经摘编)
人形机器人的智能水平目前介入 L3 和 L4 之间
媒体:人形机器人当前的智力水平、操作能力,还有成本目前发展现状如何,处于什么发展阶段?
马世奎:对于人形机器人的智力水平,现在也慢慢有一些标准产生,大部分还是参考特斯特自动驾驶 L1 到 L5 的划分方式。按照这个标准,现在的人形机器人还没达到 L4 水平(即完全自主或少量监控的状态),基本上处于 L3 到 L4 之间的过渡状态。
大模型的人机互動语言理解能力很强,在视觉这块儿也是比较成熟的;在运动控制这块儿,我们看到小腦的一些底层能力从不同的基因的厂家那里表现出来了,这个能力是相对比较成熟的,但基本上还停留在展示的阶段;不过目前来看,操作方面也有部分工艺比较成熟,可以直接商业化,比如抓放、插拔。
成本会随着规模化发展,有进一步下探空间,价格方面,从业内走向来看成本下降的非常之快。
媒体:从数量的一个角度上,如何量化的定义一下人形机器人的小规模量产和大规模量产?
张淼:小规模和大规模是一个相对的概念,可能各家都会有自己的一个定义。我们觉得就当下情况看,100 套以内算是小规模的水平,100 套以上就算是比较大的规模了。
媒体:人形机器人领網域,它在未来一到三年之内会有哪些比较明显的这个发展趋势?
张淼:首先我们看到了从政策层面上,2023 年下半年至今,国家层面出台了很多这种支持人形机器人产业发展的政策。很多省份现在也开始在跟随着国家的脚步,陆续颁布和出台人形机器人产业相关的政策,会有更多产业政策支持人形机器人的发展。
第二个,有了前期的政策支持之后,会有更多零部件和上游的材料企业跟随主机厂的发展有进一步的提升,带动供应链进一步成熟。
第三是商业化应用,预计会有很多的具身智能和人形机器人厂家,去跟各个领網域、各个应用场景进行合作或者联合研发,推动具身机器人在各个领網域的应用。
最后,具身机器人如果未来要走向 C 端场景,那么安全性和伦理层面上的一些问题会逐渐开始被大家拉到台面上来进行讨论,这也可能会是一个趋势。
媒体:灵宝 CASBOT 人形机器人主要面向 B 端,您怎么看待人形机器人进入 C 端家庭市场的行业整体进度?
张淼:2024 年之前,人形机器人或者说具身智能,基本上处于一个平台搭建的阶段,大家其实都在完成 0 到 1 的研发。有了基础平台之后,距离产品和商业化其实还是有比较大的距离,尤其是在和各个应用场景结合的时候,还需要在场景基础上进行性能完善,我觉得这个周期持续的时间会长一些。
C 端家庭服务场景,我们基于过往的经验判断,它对于成本还是比较敏感的。双足形态的机器人的成本,相较于 C 端客户的预期,还是有着相当大的 gap。
灵宝 CASBOT 的战略规划是通过真实场景不断打磨自身产品能力,B 端和 C 端在研发侧同步储备,商业化层面根据公司内外部的情况选择更合适的时机走向 C 端的消费级市场。
马世奎:马斯克的对于人形机器人的判断可以作为参考。他预计 2025 年人形机器人会在特斯拉工厂打工,做一些人的替代,2026 年会开放给第三方做服务,逐步地最后才会到落地 C 端家庭场景。所以家庭场景还是要困难一些。
人形机器人,在应用场景中学习
媒体:目前很多制造业车间里应用的还是机械臂,机械臂和人形机器人在工厂应用中有什么差异?
马世奎:有两个差异,一个是底盘,人形机器人的底盘是可以动的,更加灵活,适用多种场景,传统机械臂是固定的,活动比较局限。另一个是智能化,人形机器人通用性比较强,可以快速学习各类操作和技能。
以笔记本装配环节为例,笔记本的料箱有固定的形状,但是料箱的放置会有不同位置,不同笔记本的孔位也不一样,传统机械臂学习起来很困难,而人形机器人有优势。传统臂的优势在于简单、重复高效、成本还低,这类型的工作还是由传统机械臂来做,传统机械臂做不了的,未来可以由人形机器人代替,两者是很好的互补,可以协作完成一些任务。
媒体: 灵宝 CASBOT 的核心零部件有多少是自研的,对于集成和自研有着怎样的考量?
马世奎:自研的好处在于自主可控,可以做出差异化,但相对的前期投入成本高,产品上市进度慢,也可能有一些不确定的风险。
我们人形机器人的軟體全部自研,硬體方面不是 100% 自研,部分芯片和传感器是外采的。我们并不追求全自研,而是从场景需求出发进行倒推,决定是否自研。
举例来说,我们的灵巧手就是自研的,因为我们发现目前市面上的通用的灵巧手产品无法满足工厂装配场景对精细化的要求。
媒体:公司落地场景选择了联想笔记本工厂的装配环节,这一环节里人形机器人需要做哪些操作,难度如何,和汽车工厂场景相比有哪些不同?
马世奎:灵宝 CASBOT 选择制造业场景,先从笔记本的装配开始,一是因为联想是我们的股东,容易切入;更重要的是,我们在精密微装配、柔性作业等方面积累了很多,能够让(人形机器人做装配)这件事首先成为现实。
对于汽车厂来说,(人形机器人)更多的是搬个大件,对于负载的要求会高一些。笔记本装配的动作包含了抓取、旋拧、插拔、使用工具等复杂操作,在精细程度上面要求会很高,柔性的要求也存在,泛化的要求也就提上来了。相应的,笔记本装配对于手的能力、相应的 AI 能力的配套要求会高一些。
对于人形机器人,我们认为有双臂和灵巧手,协作方式是通过大腦去赋能的,可以算是类人形。所以我们在装配场景的机器人其实是非双足的,只有人的上半身。
媒体:人形机器人进工厂无论是打螺丝还是搬运,好像原来的工业机器人可以实现更高的效率,现在人形机器人再去做这些流程化的东西,是不是反其道而行之?
马世奎:从人形机器人的未来来看,它主要有两个优势,第一是通用性,就是一台人形机器人可以干很多种工作;第二个就是成本,成本要降到一定水平,否则打不过专用机器人。
那为什么现在人形机器人进工厂?因为要达到通用性,必须要积累足够量的数据。数据积累一方面依靠仿真,另一方面也要落到具体的场景里去积累,而且工厂这个半结构化的场景里,不用像在 C 端场景一样担忧伦理问题。
另外人形机器人进装配工厂也不会跟传统机械臂直接去竞争,选择的是机械臂做不了的事情,比如笔记本装配的很多工序,需要双手协作才能完成;另外灵巧手以前都是二指、三指,而人形机器人需要高自由度的仿真手,这样一些精细的、力感的、柔顺的控制才能实现。
张淼:传统的工业机器人速度非常快、效率和精度也非常高,但是过于定制化,好多都是非常大型的机械装置,它有着固定的工序,不会和人直接互動。
目前国内很多工厂的生产线都在往柔性制造的方向发展,需要根据客户需求去做定制化的生产,那么传统的工业机器人就不能在这样的生产线上使用了。而具身机器人更加适应柔性制造的趋势。
灵宝 CASBOT 在联想的装配场景里去做探索,虽然当前的发展还不能说完全满足生产线上的需求,但它都有一个逐步实现和进步的过程,我们现在正处在过程当中。
媒体:说到装配,未来像是富士康之类的劳动密集型 3C 制造企业是不是可以大规模应用机器人来替代人做手机组装?
马世奎:人形机器人进手机产线其实比笔记本会更难一些,因为手机体积更小,更精密。富士康一直在探索这件事,也成立了一个机器人事业部,我觉得大趋势是不可挡的。