大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

浙大&中科院讓Agent學會自我進化,玩德州撲克心機盡顯

2024-03-13 简体 HK SG TW

今天小編分享的科學經驗:浙大&中科院讓Agent學會自我進化,玩德州撲克心機盡顯,歡迎閲讀。

基于大模型的 Agent,已經成為了大型的博弈遊戲的高級玩家,而且玩的還是德州撲克、21 點這種非完美信息博弈。

來自浙江大學、中科院軟體所等機構的研究人員提出了新的 Agent 進化策略,從而打造了一款會玩德州撲克的 " 狡猾 " 智能體 Agent-Pro。

通過不斷優化自我構建的世界模型和行為策略,Agent-Pro 掌握了虛張聲勢、主動放棄等人類高階遊戲策略。

Agent-Pro 以大模型為基座,通過自我優化的 Prompt 來建模遊戲世界模型和行為策略。

相比傳統的 Agent 框架,Agent-Pro 能夠變通地應對復雜的動态的環境,而不是僅專注于特定任務。

而且,Agent-Pro 還可以通過與環境互動來優化自己的行為,從而更好地達成人類設定的目标。

同時作者還指出,在競争、公司談判和安全等現實世界中遇到的情景,大多可以抽象為 multi-agent 博弈任務,而 Agent-Pro 通過對這類情境的研究,為解決眾多現實世界的問題提供了有效策略。

那麼,Agent-Pro 在博弈遊戲中的表現究竟如何呢?

進化出遊戲世界模型

在研究中,作者使用了 "21 點 " 和 " 有限注德州撲克 " 這兩款遊戲對 Agent 進行了評估。

首先簡要介紹下兩個博弈遊戲的基本規則。

21 點

遊戲中包含一個莊家和至少一名玩家。

玩家可以看到自己的兩張手牌 , 以及莊家的一張明牌,莊家還隐藏了一張暗牌。玩家需要決定是繼續要牌(Hit)還是停牌(Stand)。

遊戲的目标是在總點數不超過 21 點的前提下,盡量使總點數超過莊家。

有限注德州撲克

遊戲開始階段為 Preflop 階段,每位玩家将獲得兩張只屬于自己且對其他玩家保密的私牌(Hand)。

随後,會有五張公共牌面 ( Public Cards ) 依次發出:首先翻牌(Flop)3 張,其次轉牌(Turn)1 張,最後是河牌 ( River)1 張。

玩家有四種選擇:棄牌(fold)、過牌(check)、跟注(call)或加注(raise)。

目标是利用自己的兩張 Hand 和五張 Public Cards 任意組合,盡可能構造出最佳的五張撲克牌組合。

在 "21 點 " 當中,同樣是使用 GPT-4 作為基礎模型,Agent-Pro 的表現超過了 ReAct 框架。

在手牌相同的情況下,二者的表現如下圖所示。

Agent-Pro 通過分析得出自我信念(Self-Belief)和對外部世界的信念(World-Belief),正确認識到自己的手牌已接近 21 點,合理的選擇了停牌。

而 ReAct 則未能及時停牌,導致最終爆牌,輸掉了遊戲。

從遊戲中能夠看出 Agent-Pro 更好的理解了遊戲的規則,并給出了合理的選擇。

接下來再看看在德州撲克中 Agent-Pro 的表現。

一次牌局中,參賽選手分别是訓練後的 DQN、DMC 策略,原生 GPT3.5 和 Agent-Pro(基于 GPT-4),他們的手牌和公共牌如下圖所示:

△S、H、C、D 分别代表黑桃、紅桃、梅花、方塊

在當前遊戲狀态(Current game state)下,Agent-Pro 分析得出 Self-Belief、World-Belief 和最終的 Action,并随着遊戲狀态的變化,不斷更新 Belief,根據自身和對手的情況,做出靈活合理的選擇。

△相同牌局同一位置的 Baseline(原始大模型)結果為 -13

統計數據上看,21 點遊戲中,在使用 GPT、Llama 等多種大模型的情況下,Agent-Pro 的表現都顯著超過了原始模型和其他參與對比的 Agents 框架。

在更為復雜的德州撲克遊戲中,Agent-Pro 不僅超過了原始大模型,還擊敗了 DMC 等訓練後的強化學習 Agent。

那麼,Agent-Pro 是如何學習和進化的呢?

三管齊下提高 Agent 表現

Agent-Pro 包括 " 基于信念的決策 "" 策略層面的反思 " 和 " 世界模型和行為策略優化 " 這三個組件。

基于信念的決策(Belief-aware Decision-making)

Agent-Pro 根據環境信息,首先形成 Self-Belief 和 World-Belief,然後基于這些 Belief 做出決策(Action)。

在後續環境互動中,Agent-Pro 動态更新 Belief,進而使做出的 Action 适應環境的變化。

例如,德州撲克遊戲中:

環境信息可包括手牌(Private State)、公共牌(Public State)、行動軌迹(Trajectory)等;

Agent-Pro 對手牌(State)、出牌計劃(Plan)及潛在風險(Risk)的預估等信息構成了它的 Self-Belief;

而 Agent-Pro 對對手(Opponent)、環境(Environment)和規則(Rule)的理解則構成了它的 World-Belief;

這些 Belief 在每一個決策周期中都會被更新,從而影響下個周期中 Action 的產生

策略層面的反思(Policy-Level Reflection )

與人類一樣,Agent-Pro 會從歷史經驗、歷史認知和歷史結果中進行反思和優化。它自主調整自己的 Belief,尋找有用的提示指令,并将其整合到新的策略 Policy 中。

首先,Agent-Pro 以文字的形式設計了一個對任務世界的建模以及對行為準則的描述, 他們一起被當做 Policy:

World Modeling:任務世界的建模,例如對遊戲環境的理解、對手們的風格分析、環境中其他 Agent 的策略估計等;

Behavioral Guideline:行為準則的描述,例如對遊戲目标的認識、自己策略規劃、未來可能面臨的風險等

其次,為了更新 World Modeling 和 Behavioral Guideline,Agent-Pro 設計了一個 Policy-level Reflection 過程。

與 Action-level Reflection 不同,在 Policy-level 的反思中,Agent-Pro 被引導去關注内在和外在信念是否對齊最終結果,更重要的是,反思背後的世界模型是否準确,行為準則是否合理,而非針對單個 Action。

例如,德州撲克遊戲中 Policy-level 的反思是這樣的:

在當前世界模型和行為準則 ( World Modeling & Behavioral Guideline ) 的指導下,Agent-Pro 觀察到外部狀态,然後生成 Self-Belief 和 World-Belief,最後做出 Action。但如果 Belief 不準确,則可能導致不合邏輯的行動和最終結果的失敗;

Agent-Pro 根據每一次的遊戲來審視 Belief 的合理性,并反思導致最終失敗的原因(Correct,Consistent,Rationality …);

然後,Agent-Pro 将反思和對自身及外部世界的分析整理,生成新的行為準則 Behavioral Guideline 和世界建模 World Modeling;

基于新生成的 Policy(World Modeling & Behavioral Guideline),Agent-Pro 重復進行相同遊戲,來進行策略驗證。如果最終分數有所提高,則将更新後的 World Modeling & Behavioral Guideline 和保留在提示中。

世界模型和行為準則的優化(World Modeling & Behavioral Guideline Evolution)

在 Policy-level Reflection 之上,面對動态的環境,Agent-Pro 還采用了深度優先搜索(DFS)和策略評估,來持續優化世界模型和行為準則,從而找到更優的策略。

策略評估是指 Agent-Pro 在新的采樣的軌迹中對新 Policy 進行更全面的評估,從而考察新策略的泛化能力。例如,德州撲克遊戲中,新采樣多條遊戲軌迹。

通過交換玩家位置或手牌,來消除由于運氣帶來的随機因素,從而更全面評估新策略的能力。

而 DFS 搜索則在新策略不能在新的場景中帶來預期的改進(策略評估)時使用,按照 DFS 搜索策略,從其他候選策略中尋找更優的策略。

論文地址:

https://arxiv.org/abs/2402.17574

Github:

https://github.com/zwq2018/Agent-Pro

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們