今天小编分享的互联网经验:华为离职“天才少年”登上热搜,智元称“机器人公司不做大模型是没有未来的”,欢迎阅读。
曾是华为 " 天才少年 "、现智元联合创始人 " 稚晖君 " 彭志辉(来源:央视网)
曾凭借华为 " 天才少年 " 计划以 201 万年薪加入、现任智元联合创始人兼 CTO 的 " 稚晖君 " 彭志辉,日前在微博发布预告 " 下周智元机器人有好东西发布 "。
3 月 10 日上午,智元机器人正式发布首个通用具身基座模型——智元启元大模型 GO-1(Genie Operator-1)。
该模型基于 Vision-Language-Latent-Action ( ViLLA ) 框架,由 VLM ( 多模态大模型 ) +MoE ( 混合专家 ) 组成,具有采训推一体,小样本快速泛化、" 一腦多形 " 的跨本体应用、持续进化、人类视频学习等突出优势,可以借助人类和多种机器人数据,赋予机器人革命性学习能力。
上述消息引发热议。10 日上午,# 华为离职天才少年官宣刷屏 #、# 稚晖君或再掀机器人行业风暴 # 等多个词条登上了微博热搜。
3 月 10 日上午沟通会上,智元具身研究中心常务主任任广辉对钛媒体 AGI 等表示,截至目前,智元机器人已经量产下线 1000 台机器人。他还透露,Go-1 基于通用数据训练,拥有非常强的泛化能力,在零数据下可以泛化到一个新场景、新任务,而基于该模型可以部署到各行各业当中,整体成本会比较低。
任广辉强调," 具身智能 " 会向通用化、开放化和智能化迈进,走向开放世界,不再局限于实验室了。
智元机器人合伙人、研究院执行院长、具身业务部总裁姚卯青表示,智元对于 AI 技术的投入是战略级的,非常坚定,今年也将开始规模化的生产和交付,并不会去显著将一些 AI 研发投入转移到最终的终端售价上面。他认为,在智元启元大模型 GO-1 下,智元机器人进入到 G3-G4 过程当中,能够很好完成某一任务,同时也逐步具备这种通用能力。
" 机器人公司如果不做大模型,那是属于没有未来的,机器人没有智能化、没有作业能力只是一个硬體,他能做的事情非常有限。"姚卯青对钛媒体 AGI 等强调,未来,AI 能力一定是区分机器人产品竞争力的核心。硬體也许大家会有一些类似的方案逐渐收敛,供应链也会高度整合,那么在最后大家比拼一定是 AI 的能力,这对于机器人落地和自主作业能力至关重要。
据悉,成立于 2023 年的智元机器人,是当前国内人形机器人赛道头部企业之一,其创始人之一彭志辉是坐拥 250 多万粉丝的 B 站 UP 主 " 稚晖君 "。
公司成立不到 1 个月,智元就完成天使轮融资、年内更斩获 4 次融资,成立仅 6 个月就发布首款人形机器人,2024 年还发布五款商用人形机器人新品,并且去年底开源百万真实机器人数据集,以及年初率先达成 1000 台机器人量产等,引发行业关注。
截至目前,智元机器人已完成天使轮、A1、A1+ 等多轮融资,累计募资总额超过 16 亿元。
智元机器人共有三条主打产品线,分别是远征、Genie 和灵犀。
事实上,现有具身模型面临多个落地困境,包括泛化性差,到新场景时成功率大幅下降;扩展新任务时需要大量数据,落地成本高;不同本体的数据无法共用,数据成本高;模型无法持续进化;DP/ACT 等具身小模型技能单一且无法快速学习新技能,GR-1/2 等模型无法构建通用的场景感知、指令理解等能力,语义指令泛化受限,以及小样本泛化到新场景 / 新任务能力较弱等。
如今,智元希望解决上述一系列问题,并于今天发布了首个具身基座大模型 Genie Operator-1 ( GO-1 ) 。
这是全球第一个基于大规模、高质量自有数据,基于自有机器人本体训练并部署的机器人基座模型。
该模型开创性地提出了 Vision-Language-Latent-Action (ViLLA) 架构,该架构由 VLM(多模态大模型) + MoE(混合专家)组成,其中 VLM 借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE 中的 Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力,MoE 中的 Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力,三者环环相扣,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体。
Genie Operator-1 有五大特点:采训推一体,搭配智元软硬體一体化框架,可以实现数据采集、模型训练、模型推理的无缝衔接;小样本快速泛化,具有强大的泛化能力,使得后训练成本非常低,能够在极少数据甚至零样本下泛化到新场景、新任务;一腦多形,是一个通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体;持续进化,搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习;人类视频学习,可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解。
据智元介绍,相比已有的最优模型,GO-1 平均成功率提高了 32%(46%->78%)。其中,在执行 "Pour Water"(倒水)、"Table Bussing"(清理桌面) 和 "Restock Beverage"(补充饮料) 任务表现尤为突出。
智元机器人方面表示,GO-1 的出现,为机器人代替人类完成工作生活中的各种事情,提供了强大的腦力支持。从准备餐食、收拾桌面这样的家庭场景任务,到接待访客、发放物品这类办公和商业场景的常见工作,再到工业等更多场景的其他操作任务,通用具身基座大模型都可以快速实现。这也意味着 " 具身智能 " 从单一任务到多种任务、从封闭环境到开放世界、从预设程式到指令泛化加速迈进,让机器人走向更多不同场景、适应多变的真实世界。
此外,任广辉透露,公司已与阶跃星辰合作,后续围绕阶跃的多模态、推理和训练、工程化等底层模型能力,进行深度的合作,将阶跃星辰多模态等能力赋能到机器人上面。
在姚卯青看来,利用 AI 大模型,能够助力机器人操作上手能力,从而加速进入工厂、零售、服务业等场景工作,长期还能进入家庭。" 这才是机器人价值被充分发挥的时刻。"
谈到最受关注的 9.9 万元机器人话题,姚卯青对钛媒体 AGI 独家表示,9 万 9 的机器人只具备基础运动能力,在本体、硬體、算法都还没有收敛的情况下,大家急着 " 卷 " 价格战,没有什么意义。因此,姚卯青呼吁人形机器人产业需要看产品竞争力,如果都达不到给用户创造价值的时候打 9.9 万元,只会把整个行业变成一个很不健康的状态。
姚卯青强调,未来 1-2 年,人形机器人能够在局部工业场景应用落地,机器人走进家庭还需要 5 年左右的时间。此外,机器人实现像人一样有通用能力的物理世界 AGI(通用人工智能)还需要 5-10 年时间。
据钛媒体 AGI 独家了解,预计 2025 年第二季度,智元将会推出基于强化学习的仿真模型,今年下半年,智元机器人将发布 X2 等多个新款商用机器人产品,以及 " 灵巧手 " 等多个新技术,加速推进 2025 年智元 10 倍营收增长目标。
(本文首发于钛媒体 App,作者|林志佳)