率先突破大規模多類數據損壞問題！中科大離線強化學習新方式入選NeurIPS 2024

今天小編分享的科學經驗：率先突破大規模多類數據損壞問題！中科大離線強化學習新方式入選NeurIPS 2024，歡迎閱讀。

機器人控制和自動駕駛的離線數據損壞問題有解了！

中科大王傑教授團隊 ( MIRA Lab ) 提出了一種變分貝葉斯推斷方法，有效地提升了智能決策模型的魯棒性。

論文發表在 CCF-A 類人工智能頂級會議 NeurIPS 2024。

現實世界的離線數據集（如機器人控制、自動駕駛等）常常因傳感器故障或惡意攻擊而受到數據損壞（如數據帶有噪聲或對抗性攻擊）的影響。

盡管現有離線強化學習（offline RL）方法在魯棒性方面已取得了進展，但它們仍難以處理因離線數據的各類元素（即狀态、動作、獎勵和轉移動态）均部分損壞所引入的高不确定性。

作者針對離線數據的各類元素均有受損這一復雜的實際問題，提出了一種魯棒的變分貝葉斯推斷方法TRACER。

在面臨各類數據損壞時，該方法于所有實驗中均實現了最優，相對于現有的 SOTA 方法提升了高達 +21.1% 的決策性能，并在 24 組僅有單類數據損壞的實驗中仍實現了 16 組的最優性能。

TRACER 主要具有以下三點優勢：

TRACER 首次将貝葉斯推斷引入到抗損壞的離線強化學習（corruption-robust offline RL）中。通過将所有離線數據作為觀測值，TRACER 捕捉了由各類損壞數據所導致的動作價值函數中的不确定性。

通過引入基于熵的不确定性度量，TRACER 能夠區分損壞數據和幹淨數據，從而調控并減弱損壞數據對智能體模型訓練的影響，以增強魯棒性。

作者在機器人控制（MuJoCo）和自動駕駛（CARLA）仿真環境中進行了系統性地測試，驗證了 TRACER 在各類離線數據損壞、單類離線數據損壞的場景中均顯著提升了智能體的魯棒性，超出了多個現有的 SOTA 方法。

注：下文中公式若顯示不完整，請嘗試左右滑動查看

背景與問題貝葉斯強化學習

基于一般的馬爾可夫決策過程（MDP）定義值函數和動作值函數。

在此基礎上，定義動作值分布。

這裡、。

該 MDP 下，算法的目的是學習一個最優策略以最大化值函數。

變分推斷

變分推斷是近似復雜後驗分布的有效技術，常用于強化學習中估計參數的不确定性或模型的誤差。

給定觀測值和潛在變量，貝葉斯推斷的目标是計算後驗分布。

為此，貝葉斯推斷引入了參數化的分布，并最小化 Kullback-Leibler ( KL ) 散度。

即最大化證據下界 ( ELBO ) ：

。

數據損壞下的離線強化學習

在現實世界中由傳感器或人類收集的數據可能會因傳感器故障或惡意攻擊而受到損壞。設和分别表示未受損和受損的數據集，包含樣本。

假設未受損的狀态服從分布，受損狀态服從，未受損動作服從，受損動作服從，受損獎勵服從，受損的下一狀态服從。

未受損和受損的狀态 - 動作分布分别表示為和。

對任意和，引入損壞數據下的貝爾曼公式：

這裡表示随機變量的分布規律與相同。

基于上述公式，作者的目的是基于損壞數據學習魯棒的策略。

方法介紹

總的來說，該方法将所有類别的數據損壞視為行動價值函數（action-value function）中的不确定性，并使用所有類别的離線數據作為觀測值，以估計行動價值函數的後驗分布。

這顯著增強了智能體對所有類别數據損壞的魯棒性。

此外，考慮到受損數據通常會引起更高的不确定性和熵，該方法引入了基于熵的不确定性度量，進而能有效區分損壞數據和幹淨數據。

基于這類度量，該方法能調節并減弱損壞數據對智能體模型訓練的負面影響，進而顯著提高模型在幹淨測試環境中的魯棒性和性能。

動機

使用多種受損數據估計累積獎勵函數（即動作值函數）會引入很高的不确定性，原因主要有兩個方面：

一是多種類型的損毀會向數據集的所有元素引入較高的不确定性；

二是每個元素與累積獎勵（即動作值、Q 值）之間存在明确的相關性關系。

下圖為決策過程的概率圖模型。實線連接的節點表示數據集中的數據，而虛線連接的 Q 值（即動作值、累積回報）不屬于數據集。這些 Q 值通常是算法旨在估計的任務目标。

為了處理這類由多種數據損毀（即狀态、動作、獎勵、狀态轉移數據受損）導致的高不确定性問題，基于上圖所示的概率圖模型，作者提出利用數據集中的所有元素作為觀測數據。

這樣做的目的，是利用這些觀測數據與累積獎勵之間的高度相關性，來準确地識别動作值函數的不确定性。

基于受損數據的貝葉斯推斷

作者提出使用離線數據集的所有元素作為觀測值，利用數據之間的相關性同時解決不确定性問題。

通過引入貝葉斯推理框架，該步的目标是逼近動作價值函數的後驗分布。

首先，基于離線數據集中動作價值與四個元素（即狀态、動作、獎勵、下一狀态）之間的關系，定義：

，參數化為。

在動作價值分布的基礎上，可以探索如何使用離線數據中可用的元素來估計的後驗分布。

從遵循損壞分布的動作開始，将它用作觀測值，在變分推斷下近似動作價值分布的後驗分布。

這些動作的似然函數為，參數化為。

在變分推斷框架下，最大化後驗并推導出基于 ELBO 的最小化損失函數：

其中，、和分别遵循離線數據分布、和。

和上述過程相同，用獎勵作為觀測，其似然函數為，參數化為。

推導出的損失函數為：

其中，和分别遵循離線數據分布和。

同上，最後用狀态作為觀測，其似然函數為，參數化為。

推導出損失函數：

基于三個損失函數、、和傳統貝葉斯強化學習的動作值損失，可以有效地拟合動作價值函數的後驗分布，從而将數據損壞建模為動作值函數中的不确定性。

基于熵的不确定性度量

為了進一步應對各類數據損壞帶來的挑戰，作者思考如何利用不确定性進一步增強魯棒性。

鑑于目标是提高在幹淨環境中的智能體性能，作者提出減少損壞數據的影響，重點是使用幹淨數據來訓練智能體。

因此，作者設計了一個兩步計劃——先區分損壞數據和幹淨數據；再調控與損壞數據相關的損失，減少其影響，從而提升在幹淨環境中的表現。

對于第一步數據的區分，由于損壞數據通常會造成比幹淨數據更高的不确定性和動作價值分布熵，因此作者提出使用熵來量化損壞數據和幹淨數據的不确定性。

作者使用貝葉斯分布強化學習中的分位數回歸，用分位點來獲取相應的動作值分位函數。

對分位點及其相應的函數值進行升序排序後，我們能得到集合、以及估計的 PDF 值，其中，而對于，有。

然後，可估計熵：

其中，表示（對于），表示（對于）。

對于第二步的損失調控，作者使用指數熵的倒數來加權我們提出的整體損失函數中與對應的損失。

因此，在學習過程中，TRACER 能夠調控與損壞數據相關的損失，并專注于最小化與幹淨數據相關的損失，從而增強在幹淨環境中的魯棒性和性能。

算法架構

TRACER 的框架圖如下所示。

可見相對于傳統的離線強化學習算法，作者的提出方法修改了批評家（critic）模型，将其改為用于分布強化學習（distributional RL）的動作值分位數回歸的架構。

此外，作者還添加了一個新的集成模型（ensemble model）。

該集成模型由三個子模型、、構成，分别重建狀态、動作、獎勵，以優化批評家模型，進而拟合動作值函數的後驗分布。

數據受損，依然保持魯棒性

為了模拟數據受損的情形，作者對數據集的部分數據加入随機噪聲或對抗攻擊來構建損壞數據。

在實驗中，作者對 30% 的單類數據進行損壞。

因此，在所有類型的數據都有損壞時，整個離線數據集中，損壞數據占約的規模。

在機器人控制（MuJoCo）仿真環境測試中，作者選擇了常用的 3 個機器人控制環境（Halfcheetah，Walker2d，Hopper）。

這些環境的狀态為仿真機器人各個部位（如腿部、關節等）的不同物理量（如位置、角度、速度等），控制動作為機器人特定部位（如腿部、頭部）的力。

所有類型數據元素均存在随機損壞（random）或對抗損壞（advers）時的實驗結果見下表。

可以看到，TRACER 在所有控制環境中均獲得了較為明顯的性能提升，提升幅度達 +21.1%，在所有環境中都獲得了最高的平均得分。

這一結果展現了 TRACER 對大規模、各類數據損壞的強魯棒性。

單種類型數據元素存在損壞的部分實驗結果見表 2 和表 3。

而在單類數據損壞中，TRACER 于 24 個實驗設定裡實現 16 組最優性能，可見 TRACER 面向小規模、單類數據損壞的問題也能有效地增強魯棒性。

存在随機損壞時，TRACER 在 8 個實驗設定中獲得了最高的平均得分。

同樣地，單類元素存在對抗損壞時，TRACER 在 8 個實驗設定中也獲得了最高的平均得分。

作者簡介

本論文作者楊睿是中國科學技術大學 2019 級碩博連讀生，師從王傑教授、李斌教授，主要研究方向為強化學習、自動駕駛等。

他曾以第一作者在 NeurIPS、KDD 等頂級期刊與會議上發表論文兩篇，曾獲滴滴精英實習生（16/1000+）。

論文地址：

https://openreview.net/pdf?id=rTxCIWsfsD

GitHub：

https://github.com/MIRALab-USTC/RL-TRACER

— 完 —

投稿請發郵件到：

[email protected]

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回復你

點這裡關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~