今天小编分享的科学经验:到《西部世界》当镇长,多校联合开源国产AI小镇,戳戳互動界面就能编辑的虚拟世界,欢迎阅读。
觉得爆火斯坦福「AI 小镇」25 个角色不够热闹?
一个可以自己创建无限 AI 智能体的像素风小镇来了,还是国产的!
用户创建 AI 后,可以让它们根据用户設定的任务或计划,在虚拟城镇中购物、上班、吵架,以评估大模型们的各项能力。
要是急了,还可以以第三方身份作为镇长介入,干涉任务情况(doge)。
这个国产「AI 小镇」叫AgentSims,是一个开放式、自定义的沙盒评估基建设施。
并且它还贴心地設定了专业开发者模式和普通用户模式,对那些不那么精通大模型和代码的研究人员还挺友好。
具体操作中,研究人员可以通过 GUI(互動式图形用户界面)添加 AI 角色、建筑物来設定不同的评估任务。
此外,也可以通过少量代码来部署和测试新的支持机制,比如规划和记忆系统。
并且可以設定角色的长期记忆,以及规划能力:
这项工作来自北航、中山大学、浙大和华东师范的小伙伴们,目前已经在GitHub 上开源。
而且量子位还眼尖发现,AgentSims 这个项目开源时间还早于斯坦福的「AI 小镇」(虽然只早了 2 天吧)。
能评估大模型能力的国产《西部世界》
从演示 Demo 来看,AgentSims 建了一个虚拟的城镇环境,包含各种虚拟居民和建筑。
这些都由用户自定义创建,最终组成沙盒,完成关于大模型能力的评估测试。
比如语言理解能力、语言生成能力、推理能力、计划和规划能力、多轮对话能力、数据记忆与检索能力、自我调整能力什么的。
So,AgentSims 到底要怎么玩儿呢?
首先来说创建 AI 角色。
这个环节的自由度比较高,能给 AI 起名,設定性格、喜好人生任务等。
图示中名叫 John 的 AI 角色,背后就依靠 GPT-4 来完成行动决策。
根据性格设定,John 还是非常乐于助人。
再加上 Demo 给它設定的人生目标是 " 在小镇上勤奋工作 " ——于是,它就成为了小镇上的善良、勤恳打工人,
创建每个 AI 角色时,都需要选择提供行为决策支持的大模型,可以是 ChatGPT、GPT-4、LLaMA 等等。
研究团队在论文中提到,AgentSims可以用来重复测试同一模型,也可以在类似設定下,比较不同模型的表现。
创建好角色后,这个 AI 几点几分干了什么事情,和谁说了话……每天的所有行为会被记录在档案中。
它们彼此之间还会发生互動,甚至产生对话:
评测过程中,不仅是 AI 和 AI 之间能够产生互動。
如果有需要,研究人员自己还可以以 " 小镇镇长 " 等用户身份进入小镇,和智能体对话、互动,干预任务完成的过程。
其次,构成沙箱环境虚拟城镇建筑和社区設定,也由用户自己创建。
建筑物中的设备是预先设定好的,但可以在开发者版本中进行修改编辑,甚至调用外部 API。
从 demo 里可以看到,AgentSims 提供的是 GUI(互動式图形界面)。
也就是说,用户不需要写代码,只需要关注任务设计的合理性。
(这里提一句,为了像现实世界一样拥有咖啡厅、商店、餐厅,用户还需要花费一定金额。)
值得一提的是,无论何时创建的 AI 角色和建筑,都处于同等地位,也就是说 AI 角色们可以对新加个体产生探索与互動。
高度自定义,戳戳就能编辑
从国内超参数科技做出的 GAEA,到斯坦福 AI 小镇,再到国产 AI 小镇 AgentSims,这几项研究都是利用 AI 打造了 NPC 系统,并依靠(各种各样的)大模型来帮助 AI 角色做行动决策。
走 " 小镇 " 这条相似路径,原因不外乎虚拟城镇能够模拟真实世界中的社会环境和人际互動,从而方便考察大模型处理复杂社交场景的能力。
但是要让 AI 们模拟人类水平的社交能力,比如记忆、行为长期连贯性,仅靠大模型能力是不够的——
众所周知,大模型对对话的上下文視窗有限制性。
在 AgentSims 这里,团队用了一种辅助系统,让 AI 角色直追人类水平。
具体抽象为三个部分:
计划系统,用来将目标分解为子任务,并记录当前状态,生成下一步行动。
记忆系统,将每日经历编码为向量,存储在数据库中,用于维持行为一致性。
工具使用系统,存储了使用设备的反馈,可以推断设备的操作方法。
因为这个机制的存在,AgentSims 的灵活度更高,用户可以自己 " 排列组合 " 不同的计划、记忆和学习系统。
那么,AgentSims 相比斯坦福小镇,还有哪些不一样的地方?
最大的不同之处在于——可以像玩游戏一样搞研究!
斯坦福的 AI 小镇在設定人物名字、运转次数和运行定制檔案时,需要在终端里手动输入内容:
AgentSims 则降低了使用门槛,自定义和模块化程度都更自由。
如果用户不想用命令行输入,可以直接选择使用可互動界面,只需要戳戳就能更改設定。
具体来说,研究团队提供了两个模式:普通用户模式和开发者模式。
普通用户模式,就是利用 GUI,点点滑鼠进行属性和位置选择,就能构建出一个用来评估大模型能力的社区 / 城镇。
至于开发者模式,那就可以直接上代码了,能更改一些設定细节。
但相对应的,门槛也更高。
当然,相比 AgentSims,斯坦福小镇会注重于生成 " 更逼真 " 的人类行为,换而言之,AI 案例会更加丰富一些。
例如 AI 角色们可以在小镇里自发组织情人节派对,策划详实,包括时间地点和到场人物等:
不过,所有的类似 AI 小镇都有同样的通病:
虚拟城镇只能 " 模拟 ",无论怎样逼真,也无法完全反映现实世界的复杂性。
而且任务性能还决定了用户可能无法深入了解模型成功 / 失败的原因。
不过这仍然不妨碍冲浪在一线的英伟达科学家 Jim Fan 狂呼,这类工作未来 " 有无限可能 "。
团队介绍
林家驹(Jiaju Lin), 硕士毕业于华东师范大学,宾州州立大学博士在读, 研究方向为 LLM 领網域适配,价值对齐。
赵浩然(Haoran Zhao),BHU 博士在读,研究方向为 Multi-Agent System,LLM Agent 及 AIgame。
张傲弛(Aochi Zhang), PTA Studio,Deep Learning coder, 伺服器架构师。
吴旖婷(Yiting Wu),PTA Studio,游戏 &HMI 方向互動设计师。
平胡秋月(Huqiuyue Ping),浙江大学硕士在读,研究方向为 Multi-Agent System 与强化学习。
Website: AgentSims.com
Paper: arxiv.org/pdf/2308.04026.pdf
Code: github.com/py499372727/AgentSims
— 联系作者 —
>