大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

Agent太火!看這一篇綜述,知識就不會學雜了

2025-03-28 简体 HK SG TW

今天小編分享的科學經驗:Agent太火!看這一篇綜述,知識就不會學雜了,歡迎閱讀。

火,Agent 可太火了!關于 Agent 的進展俯拾皆是,根本看不過來……

看過來——這篇綜述可能能幫你厘清很多問題:

來自華東師大和東華大學的研究團隊發表了 "A Survey on the Optimization of Large Language Model-based Agents(大模型智能體的優化方法綜述)",首次從系統化視角對 LLM 智能體優化策略進行了全面梳理與分析。

論文将将現有方法劃分為兩大類:參數驅動的優化與參數無關的優化。

前者包括基于監督微調、強化學習(如 PPO、DPO)以及微調與 RL 結合的混合策略,重點讨論了軌迹數據構建、獎勵函數設計、優化算法等關鍵模塊。

後者則涉及通過 Prompt 工程、外部工具調用、知識檢索等方式在不修改模型參數的前提下優化 Agent 行為。

除此之外,作者們還整理了主流的 Agent 微調與評估數據集,回顧了 LLM Agent 在醫療、科學、金融、編程等多個應用領網域的代表性實踐。

最後,研究團隊總結了 Agent 當前面臨的關鍵挑戰與未來研究方向。

為什麼我們需要專門優化 LLM 智能體?

近年來,随着 GPT-4、PaLM 和 DeepSeek 等大型語言模型不僅在語言理解和生成上表現出色,更在推理、規劃和復雜決策等方面展現出非凡的能力。

因此,越來越多的研究者開始嘗試将 LLM 作為智能體來使用,探索其在自動決策和通用人工智能方向的潛力。

與傳統的強化學習智能體不同,LLM 智能體不依賴顯式的獎勵函數,而是通過自然語言指令、Prompt 模板與上下文學習(ICL)完成復雜任務。

這種 " 文本驅動 " 的智能體範式展現出極高的靈活性與泛化能力,能夠跨任務理解人類意圖、執行多步驟操作,并在動态環境中做出決策。

當前,研究者已嘗試通過任務分解、自我反思、記憶增強以及多智能體協作等方式提升其表現,應用場景涵蓋軟體開發、數學推理、具身智能、網頁導航等多個領網域。

值得注意的是,LLM 本身的訓練目标是預測下一個 token,并非為長期規劃和互動學習的 Agent 任務而生。

這也導致了 LLM 作為 Agent 的部分挑戰:

長程規劃與多步推理能力不足,容易在復雜任務中出現累積錯誤;

缺乏持續性記憶機制,難以基于歷史經驗進行反思與優化;

對新環境的适應能力有限,難以動态應對變化場景。

尤其是開源 LLM 在 agent 任務中的表現普遍落後于 GPT-4 等閉源模型,而閉源模型的高成本與不透明性,也使得優化開源 LLM 以提升 Agent 能力成為當前研究的關鍵需求。

當前已有的綜述要麼聚焦于大模型優化本身,要麼只讨論 agent 的局部能力(如規劃、記憶或角色扮演),并未将 "LLM 智能體優化 " 作為一個獨立且系統的研究方向進行深入探讨。

研究團隊填補了這一空白,首次以 "LLM-based Agent 的優化技術 " 為核心議題展開系統綜述,構建統一框架,歸納方法路徑,并對比不同技術的優劣與适用情境。

參數驅動的 LLM 智能體優化

在參數驅動的 LLM 優化中,作者将其分為 3 個方向。

基于常規微調的優化

第一個方向,基于常規微調的優化。

又分為 2 大步驟:構建 Agent 任務的高質量軌迹數據——用軌迹微調 Agent。

首先是數據獲取與生成。

高質量的軌迹數據構建開始于初始數據的獲取和生成,這不僅需要一組多樣化的軌迹,還需要與目标任務充分對齊,以确保有效的學習。

作者将主流方法歸納為以下四類:

專家标注數據:由人類專家手工設計,質量高、對齊強,是微調的黃金标準。但人力成本高、難以擴展,常作為優質補充數據使用。

強 LLM 自動生成數據:利用 GPT-4 等大模型結合 ReAct、CoT 策略生成軌迹,效率高、适合大規模構建。但數據依賴大模型,存在成本高、偏差傳播等問題。

Agent 自主探索數據:通過開源模型自主與環境互動生成軌迹,成本低、可擺脫閉源依賴。缺點是探索能力有限,需配合後續篩選機制去除低質數據。

多智能體協作生成數據:通過多個 Agent 協同完成復雜任務流程,提升數據多樣性與互動復雜度。但系統設計更復雜,穩定性和資源成本也是挑戰。

其次,數據的評估與過濾。

由于生成的軌迹數據質量參差不齊,對數據進行評估和篩選成為不可或缺的一步。

作者将主流方法歸納為三類:

基于環境的評估:這類方法依靠任務是否成功、環境獎勵等外部反饋來判斷軌迹質量,易于實現,自動化程度高。但缺點是反饋信号過于粗粒度,只關注最終結果,無法發現推理鏈條中的隐性錯誤。

基于人工或規則的評估:通過預設規則(如任務完成度、答案一致性、多樣性等)或專家人工審核,對數據進行更精細的質量控制。适配性強、準确性高,但也需要大量人工參與與復雜設計。

基于模型的評估:借助強大的 LLM(如 GPT-4)對軌迹進行自動打分與分析,能從相關性、準确性、完整性等維度進行多層評估,構建自動化質量評估框架。缺點在于,評估本身依賴模型,可能引入新的偏差。

接着是低質量樣本的利用。

除了高質量的獲取,對不合格的低質量軌迹也需要再次利用。

目前的主流策略包括:

對比式利用:通過對比正确與錯誤樣本,讓模型更清晰地識别哪些行為是有效的。

錯誤修正型方法:識别并修正失敗軌迹,将其轉化為可學習的數據,提升訓練質量。

直接利用錯誤樣本:不做修正,直接用失敗案例訓練模型,提升其面對錯誤情境時的容錯性。

完成高質量軌迹數據構建後,下一步就是關鍵的微調階段。

通過微調,讓開源大模型真正适應 Agent 任務,學會規劃、推理與互動,是優化 LLM 智能體不可或缺的一步。

值得注意的是,僅用 Agent 任務軌迹微調可能會削弱 LLM 的通用能力。

因此,大多工作選擇混合通用指令數據與 Agent 軌迹共同訓練,以在保留語言基礎能力的同時,提升 Agent 執行能力。

作者将現有的微調方法劃分為三大類:

标準 SFT:最常見的方法,通過高質量指令 - 輸出對或軌迹數據,對模型進行全參數優化,最能對齊目标任務。此外,模仿學習中的行為克隆本質上也屬于這一類,強調從專家軌迹中學習決策策略。

參數高效微調(如 LoRA/QLoRA):只更新少量參數,其餘權重保持不動,顯著降低顯存與算力開銷,在大模型 Agent 微調中尤為常見。相比全量微調,雖然訓練開銷更小,但性能往往可媲美甚至超過

自定義微調策略:為特定任務設計的微調方法,例如将通用指令與軌迹數據混合訓練,或引入額外約束項(如正則化)提升泛化與穩定性。這類方法更具靈活性,适合復雜或稀缺任務場景。

基于強化學習的優化

相比于傳統的微調方式,強化學習為 Agent 帶來了更具主動性的學習路徑。

它讓模型不再只是 " 模仿 ",而是能在環境中探索行為、接受獎勵與懲罰,動态調整策略,真正實現從試錯中成長。

作者将當前 RL 優化方式分為:基于獎勵函數的優化和基于偏好對齊的優化。

先說基于獎勵函數的優化。

在強化學習優化中,獎勵函數就像智能體的指揮棒,引導模型不斷改進策略。通過設定清晰的 " 做得好 vs 做錯了 " 标準,Agent 可以從互動中學習得更精細、更穩健。

作者将當前方法按照三類獎勵來源劃分 3 類:

基于環境的獎勵:直接依據任務是否完成來打分,簡單直觀,自動化程度高。但往往只關注最終結果,忽略了中間步驟的質量。

基于模型的獎勵:由 LLM 或輔助模型對軌迹進行評估,适用于環境反饋稀疏的場景,能提供更細致的反饋。但效果取決于評估模型的質量。

自定義獎勵函數:研究者根據任務需求自設多維度獎勵,不僅考核完成度,也關注策略穩定性、協作效率等。靈活強大,但設計成本高、難以泛化。

再來看基于偏好對齊的優化。

相比傳統 RL 基于獎勵函數的訓練方式,偏好對齊提供了更直接、更輕量的優化路徑。

它不再依賴繁瑣的獎勵建模,而是讓 Agent 學會 " 哪種行為更受人類歡迎 "。

其代表方法是 DPO,一種更簡單的離線強化學習方式,直接通過人類或專家的偏好對樣本進行 " 正負對比 " 訓練。

根據主要偏好數據來源,作者将其這類優化方法分為兩類:

專家 / 人工偏好數:基于專家示範或人類标注構造正負樣本(優質 vs 錯誤軌迹),質量高但難以大規模擴展,覆蓋面有限。

任務或環境反饋:從任務表現(成功率、分數等)中自動構建偏好對,适用于動态任務場景,但依賴反饋機制合理的設計。

綜合來看,偏好對齊方法訓練高效、部署簡單,但強依賴偏好數據質量與覆蓋範圍,适合結構明确、反饋清晰的任務場景。

而獎勵函數類方法更适配復雜多變的環境,但成本更高。

混合參數微調方法

單一的優化方法各有短板——常規微調穩定高效但缺乏動态應變能力,RL 靈活強大卻計算開銷巨大。

于是,越來越多研究開始探索混合微調策略,結合兩者優點,構建更強大的 LLM 智能體。

這類工作主要為:

第一,順序式兩階段訓練。

這也是是當前的主流方法,采取 " 先 SFT、後 RL" 的思路。

階段一:行為克隆微調(SFT),用專家軌迹或策展數據預訓練模型,奠定基礎能力;

階段二:強化學習優化(PPO / DPO),針對環境或偏好精調模型策略。

第二,交替優化。

即引入迭代交替機制,在 SFT 和 RL 之間多輪來回切換,以實現細粒度提升。

參數無關的 LLM 智能體優化

相比參數微調,參數無關的優化方法不涉及模型權重更新,而是通過調整 Prompt、上下文和外部信息結構,在資源受限或輕量部署場景中展現出強大潛力。

作者将其分為五類核心策略:

第一類,基于經驗的優化。

通過記憶模塊或歷史軌迹,讓 Agent" 學會復盤 ",從過去成功與失敗中提煉策略,增強長期适應性。

第二類,基于反饋的優化。

Agent 通過自我反思或外部評估不斷修正行為,形成迭代閉環;還有方法通過元提示優化調整全局指令結構,提升泛化能力。

第三類,基于工具的優化。

讓 Agent 學會使用工具(如搜索、計算器、API)以增強執行力。部分方法優化工具調用策略,部分則訓練 Agent 構建更高效的任務 - 工具路徑。

第四類,基于 RAG 的優化。

結合檢索與生成,通過從數據庫 / 知識庫中實時獲取信息增強推理過程,尤其适合知識密集型任務和變化快速的場景。

第五類,多 Agent 協作優化。

多個 LLM Agent 協同完成任務,通過角色分工、信息共享與反饋機制實現 1+1>2 的協同智能。

參數無關優化,讓 LLM Agent 在不動模型的前提下,變得更 " 聰明 "、更 " 适應 "、也更 " 輕巧 "。

數據集與基準

作者将數據和基準分為用于評估和微調的兩個大類。

評估任務分為兩類。

第一類,通用評估任務。

即按一般任務領網域分類,如數學推理,問題推理(QA)任務,多模态任務,編程等。

第二類,多任務評估基準。

跨各種任務評估基于 LLM 的智能體,測試它們概括和适應不同領網域的能力。

Agent 微調數據集,則是針對 Agent 微調而精心設計的數據,以提高 LLM Agent 在不同任務和環境中的能力。

應用

随着優化方法的不斷成熟,基于 LLM 的智能體已在多個真實場景中嶄露頭角,逐漸從實驗室走向實際應用:

挑戰與未來方向

數據偏差問題。

Agent 高度依賴數據質量,然而預訓練數據與微調軌迹分布不匹配,再加上 LLM 自身生成與評估帶來的潛在偏差,易導致性能不穩定。

未來可探索偏差測試、對抗訓練、知識邊界評估等方法,構建更穩健的數據基礎。

算法效率與适應性。

當前強化學習與微調方法在面對稀疏獎勵、大動作空間、多步互動時存在成本高、效果差的問題。

如何提升 DPO 等輕量方法的多輪能力,或探索 RL+SFT 的混合訓練、元學習、自監督方法,将是未來重點。

跨任務跨領網域遷移難。

許多方法在單一任務上表現優秀,但在新環境或真實世界中易失效。

需要發展更強的泛化機制,如任務分布對齊、網域适應、多任務聯合訓練等,提升模型遷移與适應能力。

缺乏統一評估标準。

Agent 在不同任務(如數學推理、網頁導航、具身 AI)中使用不同指标,難以橫向比較。

建立統一的評估基準,引入推理復雜度、适應性與偏好評分等新維度,将推動 Agent 研究向更系統、可比的方向發展。

參數驅動的多智能體優化缺失。

目前多智能體策略多依賴凍結 LLM,缺乏聯合參數訓練機制,限制了協同智能的發展。

未來應探索多智能體聯合微調、獎勵共享機制、層級控制策略,提升整體系統能力與協作水平。

arXiv 鏈接:

https://arxiv.org/abs/2503.12434  

GitHub 鏈接:

https://github.com/YoungDubbyDu/LLM-Agent-Optimization

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—  完  —

學術投稿請于工作日發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

  點亮星标

科技前沿進展每日見

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們