今天小編分享的科技經驗:楊立昆不看好強化學習:“我确實更喜歡MPC”,歡迎閲讀。
原标題:Yann LeCun 不看好強化學習:「我确實更喜歡 MPC」
編輯:張倩、小舟
五十多年前的理論還值得再研究一下?
「相比于強化學習(RL),我确實更喜歡模型預測控制(MPC)。至少從 2016 年起,我就一直在強調這一點。強化學習在學習任何新任務時都需要進行極其大量的嘗試。相比之下,模型預測控制是零樣本的:如果你有一個良好的世界模型和一個良好的任務目标,模型預測控制就可以在不需要任何特定任務學習的情況下解決新任務。這就是規劃的魔力。這并不意味着強化學習是無用的,但它的使用應該是最後的手段。」
在最近發布的一個帖子中,Meta 首席人工智能科學家 Yann LeCun 發表了這樣一番看法。
一直以來,Yann LeCun 都是強化學習的批評者。他認為,強化學習這種方法需要大量的試驗,非常低效。這和人類的學習方式大相徑庭 —— 嬰兒不是通過觀察一百萬個相同物體的樣本來識别物體,或者嘗試危險的東西并從中學習,而是通過觀察、預測和與它們互動,即使沒有監督。
在半年前的一次演講中,他甚至主張「放棄強化學習」(參見《GPT-4 的研究路徑沒有前途?Yann LeCun 給自回歸判了死刑》)。但在随後的一次采訪中,他又解釋説,他的意思并不是完全放棄,而是最小化強化學習的使用,訓練系統的正确方法是首先讓它從主要觀察(也許還有一點互動)中學習世界和世界模型的良好表示。
同時,LeCun 也指出,相比于強化學習,他更傾向于 MPC(模型預測控制)。
MPC 是一種使用數學模型在有限時間内實時優化控制系統的技術,自二十世紀六七十年代問世以來,已廣泛應用于化學工程、煉油、先進制造、機器人和航空航天等各個領網域。比如,前段時間,波士頓動力就分享了他們利用 MPC 進行機器人控制的多年經驗(參見《波士頓動力技術揭秘:後空翻、俯卧撐與翻車,6 年經驗、教訓總結》)。
MPC 的最新發展之一是與機器學習技術的集成,即 ML-MPC。在這種方法中,機器學習算法用于估計系統模型、進行預測和優化控制動作。機器學習和 MPC 的這種結合有可能在控制性能和效率方面提供顯著的改進。
LeCun 的世界模型相關研究也用到了 MPC 相關理論。
最近,LeCun 對于 MPC 的偏愛又在 AI 社區引發了一些關注。
有人説,如果我們的問題能夠很好地建模,并且具有可預測的 dynamics,MPC 就會很好地發揮作用。
或許對于計算機科學家來説,信号處理和控制領網域還有很多值得挖掘的東西。
不過,也有人指出,求解精确的 MPC 模型是個很難的問題,LeCun 觀點中的前提 ——「如果你有一個良好的世界模型」本身就難以實現。
還有人説,強化學習和 MPC 未必是二選一的關系,二者可能有各自的适用場景。
之前已經有一些研究将二者結合起來使用,效果很好。
強化學習 vs MPC
在前面的讨論中,有網友推薦了一篇 Medium 文章,分析對比了強化學習與 MPC。
接下來,就讓我們根據這篇技術博客,具體分析下兩者的優缺點。
強化學習(RL)和模型預測控制(MPC)是優化控制系統的兩種強大技術。兩種方法都有其優點和缺點,解決問題的最佳方法取決于特定問題的具體要求。
那麼,兩種方法的優缺點分别有哪些,又适用于解決哪些問題呢?
強化學習
強化學習是一種通過反復試驗來學習的機器學習方法。它特别适合解決復雜動力學或未知系統模型的問題。在強化學習中,智能體學習在環境中采取行動以最大化獎勵信号。智能體與環境互動,觀察結果狀态并采取行動。然後根據結果給予智能體獎勵或懲罰。随着時間的推移,智能體将學會采取能夠帶來更積極獎勵的行動。強化學習在控制系統中有多種應用,旨在提供動态自适應方法來優化系統行為。一些常見的應用包括:
自主系統:強化學習用于自主控制系統,例如自動駕駛、無人機和機器人,以學習導航和決策的最佳控制策略。
機器人技術:強化學習使機器人能夠學習并調整其控制策略,以完成復雜動态環境中抓取物體、操縱和運動等任務。
......
強化學習(RL)工作流。
智能體:學習者和決策者。
環境:智能體與之互動的環境或實體。智能體觀察并采取行動,影響環境。
狀态:對世界狀态的完整描述。智能體可以完全觀察或部分觀察狀态。
獎勵:指示智能體績效的标量反饋。智能體的目标是最大化長期總獎勵。智能體會基于獎勵改變策略。
動作空間:智能體可以在給定環境中執行的一組有效動作。有限的動作構成離散的動作空間;無限的動作構成連續的動作空間。
模型預測控制
模型預測控制(Model Predictive Control,MPC)是一種廣泛使用的控制策略,已應用于許多領網域,包括過程控制、機器人、自主系統等等。
MPC 的核心宗旨是使用系統的數學模型來預測未來的行為,然後利用該知識來產生控制操作,以最大化某些性能目标。
經過多年的不斷改進和完善,MPC 現在可以處理日益復雜的系統和困難的控制問題。如下圖所示,在每個控制間隔,MPC 算法計算控制範圍的開環序列,以優化預測範圍内受控體(plant)的行為。
離散 MPC 方案。
MPC 在控制系統中的應用包括:
過程工業
電力系統
汽車控制
機器人技術
其中,MPC 在機器人系統中用于規劃和優化運動軌迹,确保機械臂和機器人平台在各種應用(包括制造和物流)中平穩高效地運動。
下表列出了強化學習和 MPC 在模型、學習方法、速度、穩健性、樣本效率、适用場景等方面的區别。一般來説,對于難以建模或具有復雜動态的問題,強化學習是合适的選擇。對于建模良好且動态可預測的問題,MPC 是一個不錯的選擇。
MPC 的最新進展之一是與機器學習技術的集成,即 ML-MPC。ML-MPC 采用和傳統 MPC 不同的方法來進行控制,使用機器學習算法來估計系統模型、進行預測和生成控制動作。它背後的主要思想是使用數據驅動模型來克服傳統 MPC 的局限性。
基于機器學習的 MPC 可以實時适應不斷變化的條件,使其适用于動态和不可預測的系統。與基于模型的 MPC 相比,基于機器學習的 MPC 可以提供更高的準确性,尤其是在復雜且難以建模的系統中。
此外,基于機器學習的 MPC 可以降低模型的復雜性,使其更易于部署和維護。不過,與傳統 MPC 相比,ML-MPC 也有一些局限性,比如需要大量數據來訓練模型、可解釋性差等等。
看來,要想真正将 MPC 引入 AI 領網域,計算機科學家們還有很長的路要走。
參考鏈接:https://medium.com/@airob/reinforcement-learning-vs-model-predictive-control-f43f97a0be27