大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

清华新VLA框架加速破解具身智能止步实验室“魔咒”,LLM开销节省4-6倍

2024-12-01 简体 HK SG TW

今天小编分享的科学经验:清华新VLA框架加速破解具身智能止步实验室“魔咒”,LLM开销节省4-6倍,欢迎阅读。

计算、存储消耗高,机器人使用多模态模型的障碍被解决了!

来自清华大学的研究者们设计了DeeR-VLA 框架,一种适用于 VLA 的 " 动态推理 " 框架,能将 LLM 部分的相关计算、内存开销平均降低 4-6 倍。

(VLA:视觉 - 语言 - 动作模型,代表一类用于处理多模态输入的模型)

简单来说,DeeR-VLA 就像人的决策系统:简单任务快速思考,复杂任务仔细思考。通过多出口架构,模型在足够计算后即可提前 " 刹车 ",避免浪费算力。

在 CALVIN 机器人操作基准测试中,DeeR-VLA 实现了大语言模型(LLM)计算成本减少 5.2-6.5 倍,GPU 内存减少 2-6 倍,同时保持了性能不受影响。

大模型存在冗余性

近年来,多模态大语言模型(MLLM)让机器人具备了前所未有的理解与执行能力。通过语言指令和视觉信息的结合,机器人可以完成复杂任务,比如 " 抓起蓝色物体并放到桌上 "。

一些前沿模型,如 RT-2,甚至可以泛化到新任务或新物体。然而,要让这些强大的模型走进实际场景,还有一道难题需要解决—— MLLM 虽然聪明,但也 " 贪吃 "。

每次推理动辄调用数十亿参数,消耗巨大的计算资源。

这对于嵌入式机器人平台来说是致命的—— GPU 内存不足、计算时间长、电池续航不够,直接让 " 通用机器人 " 的梦想止步于实验室。

然而实际上,在机器人控制领網域,很多实际应用场景并没有我们想象的那么复杂。

论文作者通过观察发现,绝大多数任务实际上可以通过较小的模型就能完成,只有在面对少数复杂场景时,才需要调用完整的大型多模态模型。

以 Calvin 数据集为例的实验结果便充分体现了这一点:当使用 24 层的 OpenFlamingo 作为基座模型时,相比于 6 层的模型,任务完成率仅提高了 3.2%,但计算成本却增加了整整 4 倍。

这无疑凸显了现有的多模态大模型对大部分简单机器人任务的冗余性。

这一发现引发了对现有模型设计的深刻思考:

为什么在大多数简单任务中还要使用高计算资源的复杂模型?

在很多情况下,使用更大的模型不仅没有带来明显的性能提升,反而浪费了宝贵的计算资源。

作者认为,如何根据任务的复杂性动态调整模型的规模,才能在不牺牲性能的情况下,最大化计算效率,成为了提升机器人智能的关键。

DeeR-VLA 的设计

DeeR-VLA 框架的核心在于其灵活的动态推理机制,能够根据任务复杂度智能调节 LLM 的计算深度。

这意味着,DeeR-VLA 能够在不同场景中激活任意规模的模型。

为了实现这一目标,DeeR-VLA 引入了多出口架构,该架构能在多模态大语言模型中按需选择性激活不同的层级。

以下是其关键技术组件:

多出口 MLLM 结构: DeeR-VLA 通过在 MLLM 中引入多出口架构,将模型划分为多个阶段,每个阶段都可以输出中间结果。一旦任务复杂度达到某个出口的需求,模型就会提前停止计算,避免激活更多层级。

特征池化方法 : 每个出口的中间特征通过特征池化技术进行压缩,提取出最核心的信息。这种方法确保即便在早期退出,模型也能生成适用于后续动作预测的高质量特征。

动作预测头设计 : 在每个出口后,模型通过轻量级的动作预测头,将特征转化为机器人具体的执行动作(如机械臂的位置和夹爪的开合状态)。

DeeR-VLA 使用了一种独特的动作一致性准则来决定是否提前退出。

通过对比相邻出口的动作预测结果,若结果差异小于阈值,则推断模型已经达到收敛状态,无需进一步计算。

动作一致性的阈值无需手动設定,模型可以自动计算出合适的阈值来满足给定的设定平均计算成本、峰值计算、显存预算,动态调整计算规模,以适应不同的硬體环境和实时性需求。

为了自动寻找最佳退出阈值,DeeR-VLA 还引入了贝叶斯优化方法。在训练或实际应用中,该方法通过探索和反馈不断微调退出策略,确保计算资源的最优分配。

在 DeeR-VLA 中,动态推理时,模型根据确定性的标准在每个时间步选择合适的出口,并汇集时序上每一个时刻的特征生成最终的预测。

然而,在训练阶段,由于缺乏明确的终止标准,模型并不清楚时序上出口特征的分布,这导致训练时的行为与推理时有所不同。

为了解决这一问题,DeeR-VLA 引入了随机出口采样策略。

在训练过程中,模型在每个时间步随机选择一个出口进行计算,这样可以确保模型在所有出口序列上都能进行有效学习,并生成高质量的预测。

这种策略有效减少了训练和推理之间的分布差异,使得模型能够更好地应对动态推理过程中的不确定性。

此外,论文作者还引入了辅助预测头(Auxiliary Heads)作为额外的监督信号,对每个出口的特征进行优化,使其更适合于动作预测任务。

实验验证

DeeR-VLA 框架在 CALVIN 长 Horizon 多任务语言控制挑战(LH-MTLC)基准上进行评估。该基准目的是测试机器人在自然语言指令下执行任务序列的能力,其中每个任务序列包含五个子任务。

由于多模态大模型中 LLM 部分占据主要的参数量,DeeR-VLA 主要关注 LLM 部分的计算量和显存占用,而不是整体框架的节省。

通过在不同环境設定下的测试,DeeR-VLA 展现了出色的表现,尤其是在任务成功率与计算效率之间的平衡。

与其他 SOTA 方法相比,DeeR-VLA 在任务成功率上保持竞争力的同时,LLM 部分的计算资源消耗大幅减少。

例如,在 D → D 設定下,DeeR-VLA 以更少的计算量(5.9 倍减少的 FLOPs)和 2 倍更低的 GPU 内存消耗,依然达到了 RoboFlamingo++ 的性能。

为了验证 DeeR-VLA 在实际推理中的效率,研究团队在 Nvidia V100 GPU 上对 DeeR 和 RoboFlamingo++ 进行了比较。

结果表明,DeeR-VLA 的 LLM 部分的推理时间比 RoboFlamingo++ 减少了68.1%,且两者在任务成功率上几乎相同。

这一实验证明了 DeeR-VLA 框架不仅在理论上能够减少计算负担,而且在实际应用中也能显著提升推理速度。

同时,DeeR-VLA 框架能够与量化技术相结合,进一步减少模型 LLM 部分的内存使用。

论文作者介绍

该论文的一作是清华大学自动化系三年级博士生Yue Yang,他专注于强化学习、世界模型、多模态大模型和具身智能的研究。

此前他作为核心作者的论文《How Far is Video Generation from World Model: A Physical Law Perspective》被国内外众多大佬 Yan Lecun,xie saining,Kevin Murphy 等转发。

另一位一作王语霖同样是清华大学的博士生。两位作者的导师都是黄高。

论文作者主页:

https://yueyang130.github.io/

论文链接:

https://arxiv.org/abs/2411.02359v1

代码和模型链接:

https://github.com/yueyang130/DeeR-VLA

—  完  —

投稿请发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們