今天小编分享的财经经验:机器人“图灵时刻”何时到?四名创始人答曰:五年内见真章,欢迎阅读。
作者丨邱晓芬
编辑丨苏建勋
在 2024 年的云栖大会上,作为 AGI 的一项重要支线,具身智能也成为了其中一大讨论焦点。
在 " 机器人的图灵时刻 " 论坛上,阿里特意邀请了四家当前炙手可热的人形机器人厂商——宇树科技、星动纪元、银河通用、逐迹动力,针对今年的机器人热潮的本质、发展历程、如何落地、技术难点等关键问题展开了讨论。
不过,不像 AI 的论坛那么针锋相对,四位创始人对于机器人赛道的判断基本一致,大家认为:
本次机器人走向台前不是靠自我革命,而是靠大模型能力助推,具身智能将会是多模态大模型的 killer APP;通用机器人本质解决两件事:移动、操作;此次机器人行业变革两个关键词:泛化、从专用到通用;机器人领網域发展历程:从规则驱动、到算法驱动、再到数据驱动对机器人落地的判断:5 年,在某些特定场景(工业 / 零售等)会有大规模落地;10 年,能进家庭;15 年,产生大千万级别市场;商业化落地的路径是: 先从单一场景 + 多任务 + 可移动做起;再做多场景 + 多任务,最后普及到全场景 + 全任务。
以下是星动纪元创始人陈建宇、银河通用创始人王鹤、宇树科技创始人王兴兴、逐迹动力创始人张巍的交流整理(略惊摘编)
主持人:通用机器人一定要做成人形吗?
王兴兴: 好几年前有投资人问我,我们做不做人形机器人?我说我坚决地反对做人形机器人,我当时在大一,09 年、10 年的时候,我自己就做过小的人形机器人。做过好以后,我发现全球当前的人类技术其实没办法驾驭这么复杂的机器人系统。
但是 2016 年开始,新的 AI 技术诞生了,在差不多在 22 年的时候,整个的大语言模型的效果已经非常惊艳,整个 AI 技术发展是远超我自己预计的,所以我们在 23 年初正式开始做人形机器人,目前取得的效果也非常惊艳。
机器人整个发展节奏,无论是硬體和軟體,都是超过我自己预计的节奏 。
张巍:我觉得一定要做成人形,而且是有两条腿的人形机器人。
我简单说一下我对通用机器人的理解。我首先觉得机器人和 AI 的使命是不同的,AI 是代替人来思考决策的,而机器人本质上要代替人来运动。
大家看到各式各样的机器人非常多,本质上就在做两件事情,一件事情是要移动(Mobility),空间中从 a 到 b;另一件事情是,操作。
所谓的通用机器人,在这两个能力上都能达到跟人一样的环境适应能力和任务的泛化性。值得一提的是,通用的移动能力其实是不太需要双臂的,但是通用的操作能力反而是需要双腿的,不然你可能都没法到人能到的地方去干活。
我觉得 AGI 的发展最相比上一代最大的区别,就是从专用到通用的变化,在大模型出来之前,我感觉通用这个词是个贬义词,通用,就是证明它是没啥用。
但是大模型出来以后,大家发现,以前我们这种在专业领網域里收集数据,去做专项任务的训练方式是有很大局限性的,反而我们要忽略专项的能力,要先构建通用的基础模型能力,再在上面长出专用的能力,这才是系统化解决泛化性的关键。
我觉得軟體算法的通用性,就靠大模型技术;机器人跟物理世界互動的通用性,就靠人形机器人。
主持人:您怎么定义人形机器人形态?
王鹤:我们公司叫银河通用,我们从建立的第一天就是要达成通用机器人。当然通用有一个过程,他先做到单一场景、多任务、可移动,然后再做到多场景、多任务,最后做到全场景、全任务。在这个过程中,形态上在不同阶段也有它最适合、最经济、最稳定的载体。
通用机器人这个万亿市场刚刚开局的时候,我们选择了先从几个场景里头的多任务做起,比如零售商超场景上货下货,在工厂里去抱箱子,其实我们发现如果它是平地的话,轮子是够用的,也不能说我们没有腿,我们是把两只腿并在了一体。
那为什么要有双手呢?因为我们发现,比如说你在超市里头一只手拿篮子,一只手拿货,也是要两只手,所以我们的形态目前是 360 度轮,双腿并成一条腿,站直一米七三,够到二米四,蹲下来可以摸地,用最便宜的价格、最稳定的机器人技术率先实现可以落地的机器人。
主持人:具身智能和人形机器人,大家讨论的时候,总是把两个词语放在一块,您怎么看?
陈建宇:这个确实是比较容易混淆的两个概念,但是他们的侧重点是不太相同的。
对具身智能来说,我们主要关注智能性和軟體。具身智能其实对形态其实是要求不高的,可以是人形的、四足的、轮式的、单个机械臂的,甚至就是一个桌子、椅子,只要它能动,都可以给他赋予具身智能,是一个更广泛的概念。
人形机器人顾名思义一定是人形的。
主持人:机器人现在有很多种类,怎么判断它的技术含量?
陈建宇:非常粗略的把人形机器人相关的技术抽成三大块的话,其实就是大腦、小腦和本体。
我觉得这里面最关键的是小腦,它是最基础的部分,就如果你只有一个本体、大腦,缺了小腦的话,其实你只能成为一个会思考的一堆烂铁。
小腦是承接大腦思考、规划的,同时也是技术不确定性最高的,最没有收敛的。 但是我们是有蛮多的产业可以去借鉴,包括我们的工业机器人产业、电动车的产业。
对于小腦来说,我们发现大部分的机器人用的还是十几年前,甚至几十年前的扫地机这一类的技术去做。
王鹤:我认为人形机器人的技术含金量可以从这两个地方总结:
一,他的泛化性到底有多强?是不是真正能通向未来的通用?
二,它能不能跟人之间用自然语言来沟通,然后实现零代码的部署?不仅能干活,还能交流。
张巍:机器人就看两个关键词,一个叫泛化,一个叫通用,这是本次变革最关键的两个词。
我提供个我的角度,我觉得咱们先看腿,人形机器人之所以是一个新的物种,它不是一个传统机械臂公司的延续,它的本质就是要长出两条腿来。
那看腿也要看什么呢?主要看两点,一个就是腿,他能不能完成他本能的一些本职的工作,就是地形的泛化能力。第二点是看他能不能支撑双臂去完成全身协同的通用操作,这也是腿存在的一个重要的价值。
主持人:机器人到底什么时候能干活?
陈建宇:如果说我们不是特别严苛的定义,就是说它能初步去用起来的话,那我认为不管是工业还是商用,甚至是家用,一两年的时间就能有,根据罗杰斯的那个创新扩散的模型,都有一些早期的一些使用
工业的场景会更快一些,因为它是有边界的,你可以人为的制定一些规则,所以在它的图灵时刻还没到来之前,机器人可能就能逐步应用起来。
王鹤:以零售场景为例,现在的技术已经达到了产业化的边界了,我们预测就是从明年开始将会是商用的元年。
5 年,我们的目标是在这样的场景和车厂的抱箱子里头达到一万台;10 年,是我认为安全性可以进入家庭标准的;15 年,我预计可能会产生千万乃至大千万级别的市场。
王兴兴:我个人的话相对比较乐观,我觉得到明年,像一些工业场景,明年基本上该问题不大,我觉得三年左右至少全球范围内有通用型的 AI 出来,因为跟过去十年不一样了,现在整个机器人 AI 人才资金投入是巨量的,都是几百倍甚至上千倍的投入。五年应该会有天翻地覆的变化。
张巍:我认为用时间去衡量它,是一个比较难的事情,我管这个赛道的产业的发展叫事件驱动,而不是时间驱动。它更关键的是看这个 AI 技术、关键的开关什么时候能找到,而不能用时间去具体的衡量它。
我也是相对乐观的。只不过我也说,我们要避免过早的去做商业化,比如说在大模型 ChatGPT 2.0、3.0 的时候你要做个超级应用,那肯定要打一堆补丁,因为上一代人工智能和机器人落地的过程中也遇到了很多这种挑战,大家都调侃说 " 人工智能等于智能不够靠人工 ",所以是靠很多这个增加了部署的售后成本,最终商业逻辑还是挺难跑通的。
主持人:大模型对人形机器人的发展,起到了什么样的影响?
张巍:我觉得机器人这一波的发展不是自我革命,发展是靠大模型技术和大模型技术背后的技术,我甚至认为具身智能将会是多模态大模型的一个 killer APP。当然我把无人驾驶也算在我们具身智能赛道里边来了。
我觉得这几年由于受到大模型技术发展的一个启发,机器人领網域的发展也经历了从规则驱动、到算法驱动、再到数据驱动的一个跳变啊。
以前你可能看你有什么算法,然后根据算法的需求来收数据来解决问题。现在的思维变了,我们要首先看你有什么数据,然后你获取新数据的方式和成本是怎么样?数据的分布是什么样的?
这就直接的决定了你采用什么样的算法去训练,所以我们公司有个口号叫,軟體定义硬體,但数据定义軟體。
王兴兴:我一直感觉,通用人机器人算是大模型的最好的一个落地的载体,二者是非常好的一个组合关系
王鹤:我觉得就是现在的通用机器人,几乎都是分立的小模型,所以大模型赋能技能有几步?
第一步是,大模型可以作为一个 agent 来调用这些 API ,进行长程的任务规划;
第二步是大模型可以作为一个 monitor,看小模型执行过程中有没有出任何错误,及时的去终止、挽救这些错误,比如药盒子掉在地上了,他立马说你也给他捡起来;
第三步是最有想象力的,就是端到端的 vision language action,把动作作为大模型输出的模态,像自动驾驶一样,做一个把通用感知、通用规划和通用执行融为一体的大模型。
陈建宇::我认为大模型这边带给我们最重要的启发就是,告诉我们有 scaling law 的存在,启发我们去思考怎么样去做机器人的 scaling law。
同时它也带着我们来一些语言模型领網域的一些技术,比如说 Transformer 的架构。算法层面、模型层面,还是数据层面,其实都有很多的不同,需要我们去探索。
end