今天小編分享的科學經驗:中科大提出動作價值表征學習新方法,率先填補長期決策信息的缺失,歡迎閱讀。
在視覺強化學習中,許多方法未考慮序列決策過程,導致所學表征缺乏關鍵的長期信息的空缺被填補上了。
來自中科大的研究人員在信息瓶頸(Information Bottleneck)框架下,提出了一種新穎的魯棒動作價值表征學習方法 ROUSER。
作者從理論上證明了 ROUSER 能夠使用學習到的魯棒表征準确估計動作價值,從而避免了智能體在測試環境中的決策能力遭到削弱。
具體而言,ROUSER 通過最大化表征與動作價值之間的互信息,來保留長期信息;
同時,最小化表征與狀态 - 動作對之間的互信息,以濾除無關特征。
由于動作價值是未知的,ROUSER 提出将狀态 - 動作對的魯棒表征分解為單步獎勵和下一狀态 - 動作對的魯棒表征。
實驗結果表明,在包括背景幹擾與顏色幹擾的 12 項任務中,ROUSER 于其中的 11 項任務上優于多種當前的先進方法。
傳統方法難以捕捉關鍵長期信息
視覺強化學習中的泛化問題近年來受到了廣泛關注,其研究潛力在于使智能體具備處理現實復雜任務的能力,并能在多樣化環境中表現良好。
這裡的泛化能力是指智能體能夠将其學到的策略直接應用于未知環境,即使這些環境中存在與訓練階段不同的視覺幹擾(如動态背景或可控物體顏色變化)。
因此,具備良好泛化能力的智能體可以在面臨未見幹擾的環境時依然保持高性能執行任務,無需大量的重新訓練。
盡管現有方法以數據增廣、對比學習等技術增強了智能體面向環境視覺幹擾的魯棒性,但值得注意的是,這類研究往往僅聚焦于如何從視覺影像中提取魯棒的、不随環境變化的信息,忽略了下遊關鍵的決策過程。
這導致這些方法難以捕捉序列數據中關鍵的長期信息,而這正是視覺強化學習泛化能力的核心因素之一。
為了針對性地解決這類問題,作者在信息瓶頸(Information Bottleneck)框架下,提出了魯棒動作價值表征學習方法(ROUSER),通過引入信息瓶頸來學習能有效捕捉決策目标中長期信息的向量化表征。
分解狀态 - 動作對魯棒表征
本文提出的 ROUSER 主要包括兩個核心思路:
一是為了學習能有效捕捉決策目标中長期信息的向量化表征,ROUSER 基于信息瓶頸框架,通過最大化表征與動作價值之間的互信息,來保留長期信息;
同時,最小化表征與狀态 - 動作對之間的互信息,以濾除無關特征。
二是由于動作價值是未知的,無法直接最大化表征與動作價值之間的互信息,因此 ROUSER 提出将狀态 - 動作對的魯棒表征分解為僅包含單步獎勵信息的表征和下一狀态 - 動作對的魯棒表征。
這樣一來,可以借助已知的單步獎勵,計算用于魯棒表征學習的損失函數。
方法架構圖如下所示:
為實現上述思路,ROUSER 主要包括兩個核心模塊——獎勵模型(Reward Model)和魯棒損失(Robust Loss)。
其中獎勵模型旨在學習僅包含單步獎勵信息的表征。
具體來說,獎勵模型基于信息瓶頸框架,最大化從狀态 - 動作對中提取的獎勵表征與單步獎勵之間的互信息,同時最小化獎勵表征與對應狀态 - 動作對之間的互信息,從而引導模型學習僅包含獎勵信息的表征。
魯棒損失則旨在構建可計算的損失函數,學習能有效捕捉決策目标中長期信息的向量化表征。
基于對狀态 - 動作對的魯棒表征分解技術,構建遞歸式損失函數,僅利用獎勵模型編碼的表征即可直接計算該損失。
且該部分僅為損失函數的構建,并沒有更改強化學習中批評家(Critic)模型的架構。最終旨在學習的向量化表征為批評家模型的中間層嵌入(Embedding)。
本文理論證明了 ROUSER 能夠利用學習到的向量化表征準确估計決策目标,即動作價值。
基于這一理論結果,ROUSER 能有效結合各類連續和離散控制的視覺強化學習算法,以提升其對動作價值估計的準确性,從而提升整體魯棒性。
實驗結果
在視覺強化學習泛化性研究的 12 個連續控制任務中,ROUSER 于 11 個任務上取得了最優性能。
其中下圖的 6 個任務是智能體面向物體動态顏色變化幹擾的泛化性能。
下圖的 6 個任務展示了智能體面向背景幹擾的泛化性能。
ROUSER 方法的一大特點是可以兼容離散控制任務,本文在 Procgen 環境中進行了相關實驗。
如下表所示,當 ROUSER 與基于價值的 VRL 方法結合應用于非連續控制任務時,也能夠提升智能體的泛化性能。
更多内容請參考原論文與項目主頁。
論文第一作者楊睿,中國科學技術大學 2019 級碩博連讀生,師從王傑教授、李斌教授,主要研究方向為強化學習、自動駕駛等。
論文地址:
https://openreview.net/pdf?id=PDtMrogheZ
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
學術投稿請于工作日發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
點亮星标
科技前沿進展每日見