今天小編分享的科學經驗:到《西部世界》當鎮長,多校聯合開源國產AI小鎮,戳戳互動界面就能編輯的虛拟世界,歡迎閲讀。
覺得爆火斯坦福「AI 小鎮」25 個角色不夠熱鬧?
一個可以自己創建無限 AI 智能體的像素風小鎮來了,還是國產的!
用户創建 AI 後,可以讓它們根據用户設定的任務或計劃,在虛拟城鎮中購物、上班、吵架,以評估大模型們的各項能力。
要是急了,還可以以第三方身份作為鎮長介入,幹涉任務情況(doge)。
這個國產「AI 小鎮」叫AgentSims,是一個開放式、自定義的沙盒評估基建設施。
并且它還貼心地設定了專業開發者模式和普通用户模式,對那些不那麼精通大模型和代碼的研究人員還挺友好。
具體操作中,研究人員可以通過 GUI(互動式圖形用户界面)添加 AI 角色、建築物來設定不同的評估任務。
此外,也可以通過少量代碼來部署和測試新的支持機制,比如規劃和記憶系統。
并且可以設定角色的長期記憶,以及規劃能力:
這項工作來自北航、中山大學、浙大和華東師範的小夥伴們,目前已經在GitHub 上開源。
而且量子位還眼尖發現,AgentSims 這個項目開源時間還早于斯坦福的「AI 小鎮」(雖然只早了 2 天吧)。
能評估大模型能力的國產《西部世界》
從演示 Demo 來看,AgentSims 建了一個虛拟的城鎮環境,包含各種虛拟居民和建築。
這些都由用户自定義創建,最終組成沙盒,完成關于大模型能力的評估測試。
比如語言理解能力、語言生成能力、推理能力、計劃和規劃能力、多輪對話能力、數據記憶與檢索能力、自我調整能力什麼的。
So,AgentSims 到底要怎麼玩兒呢?
首先來説創建 AI 角色。
這個環節的自由度比較高,能給 AI 起名,設定性格、喜好人生任務等。
圖示中名叫 John 的 AI 角色,背後就依靠 GPT-4 來完成行動決策。
根據性格設定,John 還是非常樂于助人。
再加上 Demo 給它設定的人生目标是 " 在小鎮上勤奮工作 " ——于是,它就成為了小鎮上的善良、勤懇打工人,
創建每個 AI 角色時,都需要選擇提供行為決策支持的大模型,可以是 ChatGPT、GPT-4、LLaMA 等等。
研究團隊在論文中提到,AgentSims可以用來重復測試同一模型,也可以在類似設定下,比較不同模型的表現。
創建好角色後,這個 AI 幾點幾分幹了什麼事情,和誰説了話……每天的所有行為會被記錄在檔案中。
它們彼此之間還會發生互動,甚至產生對話:
評測過程中,不僅是 AI 和 AI 之間能夠產生互動。
如果有需要,研究人員自己還可以以 " 小鎮鎮長 " 等用户身份進入小鎮,和智能體對話、互動,幹預任務完成的過程。
其次,構成沙箱環境虛拟城鎮建築和社區設定,也由用户自己創建。
建築物中的設備是預先設定好的,但可以在開發者版本中進行修改編輯,甚至調用外部 API。
從 demo 裏可以看到,AgentSims 提供的是 GUI(互動式圖形界面)。
也就是説,用户不需要寫代碼,只需要關注任務設計的合理性。
(這裏提一句,為了像現實世界一樣擁有咖啡廳、商店、餐廳,用户還需要花費一定金額。)
值得一提的是,無論何時創建的 AI 角色和建築,都處于同等地位,也就是説 AI 角色們可以對新加個體產生探索與互動。
高度自定義,戳戳就能編輯
從國内超參數科技做出的 GAEA,到斯坦福 AI 小鎮,再到國產 AI 小鎮 AgentSims,這幾項研究都是利用 AI 打造了 NPC 系統,并依靠(各種各樣的)大模型來幫助 AI 角色做行動決策。
走 " 小鎮 " 這條相似路徑,原因不外乎虛拟城鎮能夠模拟真實世界中的社會環境和人際互動,從而方便考察大模型處理復雜社交場景的能力。
但是要讓 AI 們模拟人類水平的社交能力,比如記憶、行為長期連貫性,僅靠大模型能力是不夠的——
眾所周知,大模型對對話的上下文視窗有限制性。
在 AgentSims 這裏,團隊用了一種輔助系統,讓 AI 角色直追人類水平。
具體抽象為三個部分:
計劃系統,用來将目标分解為子任務,并記錄當前狀态,生成下一步行動。
記憶系統,将每日經歷編碼為向量,存儲在數據庫中,用于維持行為一致性。
工具使用系統,存儲了使用設備的反饋,可以推斷設備的操作方法。
因為這個機制的存在,AgentSims 的靈活度更高,用户可以自己 " 排列組合 " 不同的計劃、記憶和學習系統。
那麼,AgentSims 相比斯坦福小鎮,還有哪些不一樣的地方?
最大的不同之處在于——可以像玩遊戲一樣搞研究!
斯坦福的 AI 小鎮在設定人物名字、運轉次數和運行定制檔案時,需要在終端裏手動輸入内容:
AgentSims 則降低了使用門檻,自定義和模塊化程度都更自由。
如果用户不想用命令行輸入,可以直接選擇使用可互動界面,只需要戳戳就能更改設定。
具體來説,研究團隊提供了兩個模式:普通用户模式和開發者模式。
普通用户模式,就是利用 GUI,點點滑鼠進行屬性和位置選擇,就能構建出一個用來評估大模型能力的社區 / 城鎮。
至于開發者模式,那就可以直接上代碼了,能更改一些設定細節。
但相對應的,門檻也更高。
當然,相比 AgentSims,斯坦福小鎮會注重于生成 " 更逼真 " 的人類行為,換而言之,AI 案例會更加豐富一些。
例如 AI 角色們可以在小鎮裏自發組織情人節派對,策劃詳實,包括時間地點和到場人物等:
不過,所有的類似 AI 小鎮都有同樣的通病:
虛拟城鎮只能 " 模拟 ",無論怎樣逼真,也無法完全反映現實世界的復雜性。
而且任務性能還決定了用户可能無法深入了解模型成功 / 失敗的原因。
不過這仍然不妨礙衝浪在一線的英偉達科學家 Jim Fan 狂呼,這類工作未來 " 有無限可能 "。
團隊介紹
林家駒(Jiaju Lin), 碩士畢業于華東師範大學,賓州州立大學博士在讀, 研究方向為 LLM 領網域适配,價值對齊。
趙浩然(Haoran Zhao),BHU 博士在讀,研究方向為 Multi-Agent System,LLM Agent 及 AIgame。
張傲弛(Aochi Zhang), PTA Studio,Deep Learning coder, 伺服器架構師。
吳旖婷(Yiting Wu),PTA Studio,遊戲 &HMI 方向互動設計師。
平胡秋月(Huqiuyue Ping),浙江大學碩士在讀,研究方向為 Multi-Agent System 與強化學習。
Website: AgentSims.com
Paper: arxiv.org/pdf/2308.04026.pdf
Code: github.com/py499372727/AgentSims
— 聯系作者 —
>