大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科技

田淵棟團隊新作祭出Agent-as-a-Judge!AI智能體自我審判,成本暴跌97%

2024-10-27 简体 HK SG TW

今天小編分享的科技經驗:田淵棟團隊新作祭出Agent-as-a-Judge!AI智能體自我審判,成本暴跌97%,歡迎閲讀。

【新智元導讀】AI 評估 AI 可靠嗎?來自 Meta、KAUST 團隊的最新研究中,提出了 Agent-as-a-Judge 框架,證實了智能體系統能夠以類人的方式評估。它不僅減少 97% 成本和時間,還提供豐富的中間反饋。

AI 智能體,能否像人類一樣有效地評估其他 AI 智能體?

對于 AI 智能體來説,評估決策路徑一直是棘手的問題。

已有的評估方法,要麼只關注結果,要麼要要過多的人工完成。

為了解決這一問題,田淵棟、Jürgen Schmidhuber 帶領的團隊提出了「Agent-as-a-Judge」框架。

簡言之,讓智能體來評估智能體系統,讓 AI 審 AI。

它不僅可以減少 97% 的成本和時間,還能提供豐富的中間反饋。

這是「LLM-as-a-Judge」框架的有機延伸,通過融入智能體特性,能夠為整個任務解決過程提供中間反饋。

論文地址:https://arxiv.org/abs/2410.10934v1

研究人員提出了 DevAI 基準,為全新框架提供概念驗證測試平台。包含 55 個真實的 AI 開發任務,帶有詳細的手動注釋。

通過對三個領先的智能體系統進行基準測試,發現它大大優于「LLM-as-a-Judge」框架。

總之,這項研究真正的變革之處在于:它提供了可靠的獎勵信号,為可擴展的、自我改進的智能體系統鋪平了道路。

「法官」智能體,擊敗大模型

現有評估方法,無法為智能體系統的中間任務解決階段,提供足夠的反饋。

另一方面,通過人工進行更好的評估,代價太大。

而智能體系統的思考方式,更像人類,通常是逐步完成,并且在内部經常使用類人的符号通信來解決問題。

因此,智能體也能夠提供豐富的反饋,并關注完整的思考和行動軌迹。

「Agent-as-a-Judge」不僅保留了「LLM-as-a-Judge」成本效益,還具備智能體特性,使其在整個過程中提供中間反饋。

下圖展示了,大模型、智能體、人類作為評判者的示意圖。

DevAI:自動化 AI 開發數據集

另外,在代碼生成領網域,基準測試的發展也落後于智能體系統的快速進步。

比如,HumanEval 僅關注算法問題,而 MBPP 則處理簡單的編程任務,但這兩者都沒有反映出開發者面臨的最實際的挑戰。

作為一個改進,SWE-Bench 基準确實引入了 GitHub 現實問題,提供一種全新評估的方法。

不過,它仍需要關注自動修復任務的開發過程。

為了解決當前代碼生成基準測試中的上述問題,研究人員引入了 DevAI:AI 開發者數據集,其中包含 55 個由專家注釋者創建的真實世界綜合 AI 應用開發任務。

DevAI 結構是這樣的:智能體系統首先接收用户查詢以開始開發,然後根據 AI 系統滿足需求的程度來評估它,其中偏好作為可選的、較為柔性的标準。

圖 3 展示了 DevAI 任務的一個例子。

DevAI 中的任務規模相對較小,但涵蓋了常用的關鍵開發技術。

如圖 2 所示,任務被标記并覆蓋了 AI 的多個關鍵領網域:監督學習、強化學習、計算機視覺、自然語言處理、生成模型等。

每個任務都是,可能交給研究工程師的真實世界問題,并降低了在這個基準上評估方法的計算成本。

接下來,研究人員将領先的開源代碼生成智能體框架,應用于 DevAI 中的任務:MetaGPT、GPT-Pilot、OpenHands。

他們讓人類評判者、大模型評判者、以及智能體評判者框架,來評估其性能。

結果如表 1 所示,MetaGPT 最具成本效益(1.19 美元),而 OpenHands 是最昂貴的(6.38 美元)。

從開發時間來看,OpenHands 完成任務平均耗時 362.41 秒,而 GPT-Pilot 耗時最長,為 1622.38 秒。

平均而言,使用這三者之一對 DevAI 進行完整評估,大約需要 210.65 美元和 14 小時才能完成。

Human-as-a-Juge:DevAI 手動評估

為了确定 DevAI 的實用有效性,并準确估計當前最先進的智能體系統實際代碼生成能力,研究人員手動評估三個 AI 開發者基線在 DevAI 中的應用。

如表 2 所示,(I)和(D)代表獨立性能與考慮任務依賴性的性能。

表示多個專家的進化,并且意味着評估使用白盒測試(允許訪問生成的 workspace、人類收集的軌迹和開源代碼庫)。

兩種性能最好的方法(GPT-Pilot 和 OpenHands)可以滿足大約 29% 的要求,但只有一項任務可以滿足所有要求。

另外,在三位人類評估者之間,他們的個人評估存在大量分歧,説明了單一人類評估的不可靠性。

下圖 5 總結了人類評估和共識評估的不匹配度。

---:智能體評估智能體

根據以往智能體設計的經驗,并通過模仿人類評估過程,研究人員涉及了 8 個模塊化互動組件,具體包括:

1 影像模塊:構建一個影像,獲取項目整個結構,包括檔案、模塊、依賴項,還可以将代碼塊分解為代碼片段

2 定位模塊:識别需求所引用的特定檔案夾 / 檔案

3 讀取模塊:超越了簡單的檔案解析,支持跨 33 種不同格式的多模态數據的讀取和理解

4 搜索模塊:提供了對代碼的上下文理解,并且可以快速檢索高度相關的代碼片段,以及其背後細微差别

5 檢索模塊:從上下文中提取信息,識别軌迹中相關片段

6 查詢模塊:确定是否滿足給定要求

7 記憶模塊:存儲歷史判斷信息,允許智能體基于過去記憶評估

8 規劃模塊:允許智能體根據當前狀态和項目目标制定策略,并排序任務。

具體操作流程,如下圖 9 所示。

下表 3 展示了,Agent-as-a-Judge 在各項任務中始終優于 LLM-as-a-Judge,特别是在那些訓在任務依賴關系的情況下。

評判開發者智能體,是一項類别不平衡的任務,滿足要求的情況要比失敗的情況少的多。

而判斷轉移和對齊率等指标可能會產生誤導。比如,由于 MetaGPT 很少滿足要求, LLM-as-a-Judge 很容易将大多數情況識别為負面(在黑盒設定中達到 84.15%)。

PR 曲線通過平衡精确度和召回率,提供更清晰的性能衡量标準。

這表明,在某些情況 下,Agent-as-a-Judge 幾乎可以取代人類評估員。

最後,在消融研究中,研究人員分析了各種組件的添加,對 Agent-as-a-Judge 判斷 OpenHands 性能的影響。

參考資料:

https://x.com/tydsh/status/1846538154129375412

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們