当AI大模型卷向服务机器人，会有哪些新故事？

今天小编分享的互联网经验：当AI大模型卷向服务机器人，会有哪些新故事？，欢迎阅读。

作者｜黄楠

编辑｜彭孝秋

不久前，英伟达成立通用具身智能体研究实验室（GEAR）的消息曝光，将机器人再度推上了风口。

过去一年，AI 大模型浪潮中，以大模型 + 机器人的路径，为人与机器共存提供新的互動模式。甚至有观点认为，机器人大腦的进化速度，主要取决于大模型的发展速度。

市场对机器人的火热反映到实际的资本环境上，是动辄数亿、乃至数十亿的融资项目、相关零部件规模陡然增长、以及下游概念股也乘风而起 ...... 具身智能，成为机器人落地故事里备受瞩目的关键词。

但进入实际的落地中，机器人只能完成一些定制化任务，缺乏对复杂场景认知能力，应用局限；而另一边，机器按照已设定算法运行，也难以产生更大智能，思考能力和决策能力无法得到提升。

如何让具身智能机器人在与人、环境的不断互動中继续学习，成为了一个关键命题。

开放场景下的机器人难题

长久以来，AI 和机器人领網域都存在着一个经典悖论——莫拉维克悖论提出，和传统假设不同，计算机要实现例如推理等人类所具备的高阶智慧、仅需少量的计算能力，而若要直觉、感知等能力，却需要巨大的运算能力。

简单来说，电腦可以在和人类围棋对弈中轻松取胜，但如果让机器人为你取出冰箱里的可乐，却并不简单。

这一过程包括了几个必要步骤。首先，机器人需要听懂人发出的指令，将任务进行拆解；第二步是做出决策，确定目标定位并规划行进路线；第三步到达目的地后，面对冰箱里各式物品，机器人既要能识别出 " 可乐 "、还要能控制机械臂完成拣取动作；最后再将物品交到指定地点。

过去，上述行动可以预先设定，但由于技术不成熟，机器人只能提供 case by case 服务；即它只学会了取 " 可乐 "，一旦物品换成 " 雪碧 "，则需要工程师重新设定一套流程。

当机器人迈进真实场景里，往往面临着泛化能力弱、交付难度高的两大痛点。

雅可比机器人 CEO 邱迪聪在与硬氪交谈中，将机器人应用场景划分为封闭式和开放场景。

其中，封闭式场景指采用经典的定制化模式。预设机器人的任务执行边界，用户下发指令后，先收集现有数据进行训练，在限定范围内穷举出所有任务可能性，尽可能覆盖更多的解决路径。

例如工业场景的运输机器人，工程师会针对特定园区提前設定运输线路，机器人只需在固定路径上完成配送任务，灵活性低；即使存在多条路线，这些路径亦经过编排和规划，机器一旦脱离该地图所设定的任务，便无法运转。因此面对新任务，机器人需要再次收集数据训练、设定方案和测试，从而导致了极大的资源和人力损耗。

开放场景则是指不受强封闭式规范和范围限制的长尾问题，如商超服务、居家养老等。当机器人与人、环境进行大量的互動，数据集或存在少样本、甚至零样本的突发情况，这对机器人理解、处理多种任务的泛化能力要求极高。

比如自动分拣，目前机器人可完成物流分拣、仓库分拣，但商超分拣却迟迟未能实现。其主要原因就在于，仓库物流中心的货物可以标准化，按外形、大小分类，同时货品密封性强，有更多冗余。相比之下，商超里品类繁多，同样是 1.5L 白瓶包装，它可能是牛奶、酸奶或是椰汁；再加上品类特性不同，比如鸡蛋和纸巾的抗摔程度大相径庭，这也对分拣机器人提出了极高的要求，从视觉到力控，都必须做的很精准。

在邱迪聪的设想中，机器人不应只是指令的执行者，还要具备举一反三的学习能力。" 今天机器人在清扫、巡检等任务中可以做得很好，但想要真正走进人们日常生活，离不开它的感知、决策、执行能力。"

而 2023 年国内大模型的爆发式增长，令邱迪聪看到了 AI+ 机器人的新机会。邱迪聪毕业于美国卡内基梅隆（CMU）大学机器人学院，曾参与 NASA 火星车研发、L4 级自动驾驶等项目，有超过 8 年 AI 与机器人跨领網域研究和落地经验。

随着技术改进和成本下降，扫地机器人、工业手臂等任务型机器人渗透率显著提高。但要提高机器人智能水平，需要更先进的算法和数据支撑。

自然语言的数据是离线的，属于方法论上的学习；而机器人决策离不开很多高质量数据，其中多数来自于开放场景中遇到的突发性状况。由此，从单一的封闭式场景任务向开放场景延展，成为机器人从业者鱼贯而入的一条路径。

去年 4 月，邱迪聪和团队成立了雅可比机器人，聚焦具身智能商超服务机器人，通过人类语音指令的控制，即可让机器人在商超场景下实现多任务执行能力，包括自主巡检、自动补货、货品分拣等。4 个月后，雅可比机器人完成天种子轮融资，投资者包括 AI 大牛、奇绩创坛创始人陆奇。

一边是开放场景对机器人提出的极高要求，包括开放词汇的感知能力、非机器学习方法的任务规划、高频任务执行的闭环能力等；另一边，大模型的语义理解、抽象规划和推理等能力被印证，可以处理许多复杂任务，这为机器人在长尾场景中应用提供了一个可行性的通路。

给机器人装上「大腦 + 小腦」

诺贝尔经济学奖得主 Daniel Kahneman 曾在《Thinking Fast And Slow》一书中提出，人类的两种思考模式，第一种是以直觉判断为主的 " 快思考 "，第二种是 " 慢思考 "，需要进行大量的推理和计算。

大模型与过去 AI 技术不同点就在于，它采用了 " 慢思考 " 模式，令机器人可以在与人类的互動中不断学习，获得更好解决任务、解决更多任务的能力。但也正因如此，关注 AI、机器人赛道的投资人郭旭告诉硬氪，绝大部分落地或完整的机器人产品和项目，普遍希望 " 一招通吃 "，例如大模型的能力很强，就想直接做一个端到端的巨型通用模型来解决所有问题。

对此邱迪聪指出，" 从实际 ROI 投入产出比的角度来说，可能不一定划算、或者说不一定适合当前这个阶段。"

开放场景用户的需求复杂，大模型的训练和推理费用高昂。据海外《The Economics of Large Language Models》研究测算，每个 token（1000 token 约为 750 个单词）的训练成本通常约为 6N（N 为参数的计量部門），推理成本约 2N。即推理成本相当于训练成本的三分之一。一旦模型上线使用，其推理成本可能远超训练成本。

因此，大模型应用于机器人的部署成本也很高。最终带来的结果是，其市场价格并非普通中小型企业能消费得起的，市场规模和普及程度有限。

要平衡这种尴尬局面，类人腦机器人不失为一个重要的探索方向。即让机器人模仿人腦的运转分工，通过 " 大腦 + 小腦 " 两个结构互补，大腦负责视觉、听觉和意识等高层次的感知和决策功能，小腦则负责协同数据来控制运动、平衡和行为姿态。

以邱迪聪和团队提出的 " 通用机器人大腦 " 为例，通用机器人大腦由 " 大腦 "J-Mind 和 " 小腦 "J-Box 构成，J-Mind 负责理解任务、下发指令，并交由 J-Box 来执行。

首先在感知层，结合了 LLM+VLM（大型视觉 - 语言模型）的技术路线可以就指令、结合物理环境进行理解，提高机器人对开放场景的认知能力，即不仅能 " 看到 " 场景中的各种物品，还能 " 看懂 " 用户的需求。比如机器人原先只认识可乐，但在看到雪碧、橙汁等新物品时，可以通过其外形与可乐相似、" 推断 " 出它们也是罐装饮料，并读取包装信息，从而认知到新物品。

雅可比机器人工作中

邱迪聪告诉硬氪，雅可比机器人之所以选择商超作为自身产品的首个应用场景，正是因为商超的人员聚集效应，有大量反复的物品信息和互動产生，可以为机器人自我学习提供数据支撑。也即是说，机器人是从真实场景中收集数据实时学习，而非在已有的数据库找答案。

在决策层，机器人通过 J-Mind 可以将用户需求转化具体的指令和子步骤，形成任务分配输出与决策动态闭环，下发执行任务给到 J-Box。随后，再由 J-Box 来驱动机器人完成操控、抓取、放下等动作。

机器人正在进行「抓取、放下」

例如，当商超货架缺货时，店员只需以口头或文字输入的形式，提出 " 货架上可乐缺货、需补货 " 的指令，雅可比机器人可自动移动到所需补货的货架前，识别货架陈列状态。当 J-Mind 在多类物品识别到可乐后，可将补货指令拆解为子步骤，由 J-Box 来抓取可乐、并把可乐放置到货架的空缺位置中。

这种 " 大腦 + 小腦 " 路线在通用机器人大腦的基础框架上，集成了很多经典的主流机器人算法，无需部署工程师，开箱即可使用；同时还支持人工调度和机器人自动化协助，灵活性更高，由机器人大腦来判断任务是否需要调用大模型、亦或是用算法就能解决的，进而降低服务成本。

商业化困局：迭代周期长、高成本

公开数据显示，2017 年至 2021 年五年间，全球智能服务机器人从原本未达百亿的市场增长至 200 亿美元，预计到 2026 年将超过 600 亿美元。

其中，中国智能专业服务机器人市场也从 2021 年的百亿元、预计到 2026 年可迈向千亿规模，增速较快。

可以看到，相比于商场里只能移动或展示广告的传统机器人，大模型的出现让人们看到了具身智能的希望，以雅可比为代表的商超机器人已经实现了一个台阶的提升。

不过，其痛点也依旧存在。在技术层面，大模型增强了机器人的理解能力，但机器人本身是一个复杂的跨学科系统，涉及仿生学设计、AI 应用、动力学建模、能量管理等等，要实现从理解、决策到控制运动、执行任务，还需要匹配各种算法和軟體。AI 技术更新迭代不是线性发展的，周期长、投入高，存在长期无法突破关键技术的风险。

硬體方面，机器人的征集结构复杂，核心零部件决定了其精度、稳定性、负荷能力等重要性能指标，其中技术难度最高分别是减速器、伺服系统和控制器，占成本的 70%。加上传感器等其他零部件，这些都会增加机器人的制造和后期维护的成本。

邱迪聪就告诉硬氪，商超场景客户对 ROI 十分关注。为此，雅可比机器人已找到核心零部件的供应渠道，" 这种方式的成本控制空间较高，核算下来符合预期。"

此外，机器人在产品化过程中，基于开放场景的融合打磨和迭代，也需要时间来产生和验证价值。

某机器人厂商的市场负责人向硬氪表示，" 下游买家一定是需要拓展和教育的，很难实现一上市就得以被接受和认可。解决方法一是产品持续迭代，二是要与客户保持紧密沟通，这是一个共同打磨产品、共同打磨场景的过程，通过这种共创的形式，发掘更多产品价值。"

例如除商超场景外，雅可比机器人也在探索餐饮服务、办公室、家用等环境。机器人作为餐厅服务员可以完成点菜、上菜等任务；作为公司前台可以引导访客，并完成材料分发、倒水等任务；作为家庭助手，协助整理衣物、擦洗家具等。