率先突破大规模多类数据损坏问题！中科大离线强化学习新方式入选NeurIPS 2024 - 大酷樂

今天小编分享的科学经验：率先突破大规模多类数据损坏问题！中科大离线强化学习新方式入选NeurIPS 2024，欢迎阅读。

机器人控制和自动驾驶的离线数据损坏问题有解了！

中科大王杰教授团队 ( MIRA Lab ) 提出了一种变分贝叶斯推断方法，有效地提升了智能决策模型的鲁棒性。

论文发表在 CCF-A 类人工智能顶级会议 NeurIPS 2024。

现实世界的离线数据集（如机器人控制、自动驾驶等）常常因传感器故障或恶意攻击而受到数据损坏（如数据带有噪声或对抗性攻击）的影响。

尽管现有离线强化学习（offline RL）方法在鲁棒性方面已取得了进展，但它们仍难以处理因离线数据的各类元素（即状态、动作、奖励和转移动态）均部分损坏所引入的高不确定性。

作者针对离线数据的各类元素均有受损这一复杂的实际问题，提出了一种鲁棒的变分贝叶斯推断方法TRACER。

在面临各类数据损坏时，该方法于所有实验中均实现了最优，相对于现有的 SOTA 方法提升了高达 +21.1% 的决策性能，并在 24 组仅有单类数据损坏的实验中仍实现了 16 组的最优性能。

TRACER 主要具有以下三点优势：

TRACER 首次将贝叶斯推断引入到抗损坏的离线强化学习（corruption-robust offline RL）中。通过将所有离线数据作为观测值，TRACER 捕捉了由各类损坏数据所导致的动作价值函数中的不确定性。

通过引入基于熵的不确定性度量，TRACER 能够区分损坏数据和干净数据，从而调控并减弱损坏数据对智能体模型训练的影响，以增强鲁棒性。

作者在机器人控制（MuJoCo）和自动驾驶（CARLA）仿真环境中进行了系统性地测试，验证了 TRACER 在各类离线数据损坏、单类离线数据损坏的场景中均显著提升了智能体的鲁棒性，超出了多个现有的 SOTA 方法。

注：下文中公式若显示不完整，请尝试左右滑动查看

背景与问题贝叶斯强化学习

基于一般的马尔可夫决策过程（MDP）定义值函数和动作值函数。

在此基础上，定义动作值分布。

这里、。

该 MDP 下，算法的目的是学习一个最优策略以最大化值函数。

变分推断

变分推断是近似复杂后验分布的有效技术，常用于强化学习中估计参数的不确定性或模型的误差。

给定观测值和潜在变量，贝叶斯推断的目标是计算后验分布。

为此，贝叶斯推断引入了参数化的分布，并最小化 Kullback-Leibler ( KL ) 散度。

即最大化证据下界 ( ELBO ) ：

。

数据损坏下的离线强化学习

在现实世界中由传感器或人类收集的数据可能会因传感器故障或恶意攻击而受到损坏。设和分别表示未受损和受损的数据集，包含样本。

假设未受损的状态服从分布，受损状态服从，未受损动作服从，受损动作服从，受损奖励服从，受损的下一状态服从。

未受损和受损的状态 - 动作分布分别表示为和。

对任意和，引入损坏数据下的贝尔曼公式：

这里表示随机变量的分布规律与相同。

基于上述公式，作者的目的是基于损坏数据学习鲁棒的策略。

方法介绍

总的来说，该方法将所有类别的数据损坏视为行动价值函数（action-value function）中的不确定性，并使用所有类别的离线数据作为观测值，以估计行动价值函数的后验分布。

这显著增强了智能体对所有类别数据损坏的鲁棒性。

此外，考虑到受损数据通常会引起更高的不确定性和熵，该方法引入了基于熵的不确定性度量，进而能有效区分损坏数据和干净数据。

基于这类度量，该方法能调节并减弱损坏数据对智能体模型训练的负面影响，进而显著提高模型在干净测试环境中的鲁棒性和性能。

动机

使用多种受损数据估计累积奖励函数（即动作值函数）会引入很高的不确定性，原因主要有两个方面：

一是多种类型的损毁会向数据集的所有元素引入较高的不确定性；

二是每个元素与累积奖励（即动作值、Q 值）之间存在明确的相关性关系。

下图为决策过程的概率图模型。实线连接的节点表示数据集中的数据，而虚线连接的 Q 值（即动作值、累积回报）不属于数据集。这些 Q 值通常是算法旨在估计的任务目标。

为了处理这类由多种数据损毁（即状态、动作、奖励、状态转移数据受损）导致的高不确定性问题，基于上图所示的概率图模型，作者提出利用数据集中的所有元素作为观测数据。

这样做的目的，是利用这些观测数据与累积奖励之间的高度相关性，来准确地识别动作值函数的不确定性。

基于受损数据的贝叶斯推断

作者提出使用离线数据集的所有元素作为观测值，利用数据之间的相关性同时解决不确定性问题。

通过引入贝叶斯推理框架，该步的目标是逼近动作价值函数的后验分布。

首先，基于离线数据集中动作价值与四个元素（即状态、动作、奖励、下一状态）之间的关系，定义：

，参数化为。

在动作价值分布的基础上，可以探索如何使用离线数据中可用的元素来估计的后验分布。

从遵循损坏分布的动作开始，将它用作观测值，在变分推断下近似动作价值分布的后验分布。

这些动作的似然函数为，参数化为。

在变分推断框架下，最大化后验并推导出基于 ELBO 的最小化损失函数：

其中，、和分别遵循离线数据分布、和。

和上述过程相同，用奖励作为观测，其似然函数为，参数化为。

推导出的损失函数为：

其中，和分别遵循离线数据分布和。

同上，最后用状态作为观测，其似然函数为，参数化为。

推导出损失函数：

基于三个损失函数、、和传统贝叶斯强化学习的动作值损失，可以有效地拟合动作价值函数的后验分布，从而将数据损坏建模为动作值函数中的不确定性。

基于熵的不确定性度量

为了进一步应对各类数据损坏带来的挑战，作者思考如何利用不确定性进一步增强鲁棒性。

鉴于目标是提高在干净环境中的智能体性能，作者提出减少损坏数据的影响，重点是使用干净数据来训练智能体。

因此，作者设计了一个两步计划——先区分损坏数据和干净数据；再调控与损坏数据相关的损失，减少其影响，从而提升在干净环境中的表现。

对于第一步数据的区分，由于损坏数据通常会造成比干净数据更高的不确定性和动作价值分布熵，因此作者提出使用熵来量化损坏数据和干净数据的不确定性。

作者使用贝叶斯分布强化学习中的分位数回归，用分位点来获取相应的动作值分位函数。

对分位点及其相应的函数值进行升序排序后，我们能得到集合、以及估计的 PDF 值，其中，而对于，有。

然后，可估计熵：

其中，表示（对于），表示（对于）。

对于第二步的损失调控，作者使用指数熵的倒数来加权我们提出的整体损失函数中与对应的损失。

因此，在学习过程中，TRACER 能够调控与损坏数据相关的损失，并专注于最小化与干净数据相关的损失，从而增强在干净环境中的鲁棒性和性能。

算法架构

TRACER 的框架图如下所示。

可见相对于传统的离线强化学习算法，作者的提出方法修改了批评家（critic）模型，将其改为用于分布强化学习（distributional RL）的动作值分位数回归的架构。

此外，作者还添加了一个新的集成模型（ensemble model）。

该集成模型由三个子模型、、构成，分别重建状态、动作、奖励，以优化批评家模型，进而拟合动作值函数的后验分布。

数据受损，依然保持鲁棒性

为了模拟数据受损的情形，作者对数据集的部分数据加入随机噪声或对抗攻击来构建损坏数据。

在实验中，作者对 30% 的单类数据进行损坏。

因此，在所有类型的数据都有损坏时，整个离线数据集中，损坏数据占约的规模。

在机器人控制（MuJoCo）仿真环境测试中，作者选择了常用的 3 个机器人控制环境（Halfcheetah，Walker2d，Hopper）。

这些环境的状态为仿真机器人各个部位（如腿部、关节等）的不同物理量（如位置、角度、速度等），控制动作为机器人特定部位（如腿部、头部）的力。

所有类型数据元素均存在随机损坏（random）或对抗损坏（advers）时的实验结果见下表。

可以看到，TRACER 在所有控制环境中均获得了较为明显的性能提升，提升幅度达 +21.1%，在所有环境中都获得了最高的平均得分。

这一结果展现了 TRACER 对大规模、各类数据损坏的强鲁棒性。

单种类型数据元素存在损坏的部分实验结果见表 2 和表 3。

而在单类数据损坏中，TRACER 于 24 个实验設定里实现 16 组最优性能，可见 TRACER 面向小规模、单类数据损坏的问题也能有效地增强鲁棒性。

存在随机损坏时，TRACER 在 8 个实验設定中获得了最高的平均得分。

同样地，单类元素存在对抗损坏时，TRACER 在 8 个实验設定中也获得了最高的平均得分。

作者简介

本论文作者杨睿是中国科学技术大学 2019 级硕博连读生，师从王杰教授、李斌教授，主要研究方向为强化学习、自动驾驶等。

他曾以第一作者在 NeurIPS、KDD 等顶级期刊与会议上发表论文两篇，曾获滴滴精英实习生（16/1000+）。

论文地址：

https://openreview.net/pdf?id=rTxCIWsfsD

GitHub：

https://github.com/MIRALab-USTC/RL-TRACER

— 完 —

投稿请发邮件到：

[email protected]

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容‍

附上论文 / 项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

点这里关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

>