大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

小红书让智能体们吵起来了!联合复旦推出大模型专属群聊工具

2024-05-01 简体 HK SG TW

今天小编分享的科学经验:小红书让智能体们吵起来了!联合复旦推出大模型专属群聊工具,欢迎阅读。

语言,不仅仅是文字的堆砌,更是表情包的狂欢,是梗的海洋,是键盘侠的战场(嗯?哪里不对)。

语言如何塑造我们的社会行为?

我们的社会结构又是如何在不断的言语交流中演变的?

近期,来自复旦大学和小红书的研究者们通过引入一种名为AgentGroupChat的模拟平台,对这些问题进行了深入探讨。

WhatsApp 等社交媒体拥有的群聊功能,是 AgentGroupChat 平台的灵感来源。

在 AgentGroupChat 平台上,Agent 们可以模拟社会群体中的各种聊天场景,帮助研究人员深入理解语言在人类行为中的影响。

该平台简直是大模型的 cosplay 胜地,它们进行角色扮演,成为各种各样的 Agent。

然后,Agents通过语言交流参与社会动态,展现了个体间的互动如何涌现成群体的宏观行为。

众所周知,人类群体的进化,正来源于一次次涌现行为的发生,如社会规范的建立、冲突的解决和领导力的执行。

AgentGroupChat 环境的详细设计

首先是角色设计。

AgentGroupChat 中,对于主要角色和非主要角色的区分非常关键。

主要角色是群聊的核心,拥有明确的游戏目标,并能够主动和所有角色进行私聊、会面,而非主要角色则更多地起到辅助和响应的作用。

通过这样的设计,研究团队可以模拟现实生活中的社交结构,并针对 " 主要研究对象 " 区分所有角色是否主要。

实验案例中的主要研究对象是 Roy 家族,所以非 Roy 家族的人就全都設定为非主要角色,从而简化互動复杂度。

其次是资源管理。

在 AgentGroupChat 中,资源不仅仅指物质的,更多的是指信息资源和社会资本。

这些资源可以是群聊话题、社会地位标志或特定的知识。

资源的分配和管理对于模拟群体动态非常重要,因为它们影响角色之间的互动和角色的策略选择。

例如,拥有重要信息资源的角色可能会成为其他角色争取联盟的目标。

第三,游戏进程设计。

游戏进程的设计模拟了现实生活中的社互動动过程,包括了私聊、会面、群聊、更新阶段和结算阶段。

这些阶段不仅仅是为了推动游戏进程,更是为了观察角色如何在不同的社交场景下作出决策和反应。

这种分阶段的设计帮助研究团队详细记录每一步的互动,以及这些互动如何影响角色间的关系和角色对游戏环境的认知。

Verb Strategist Agent 的核心机制

论文中提到了一个以大模型为基础的智能体框架,Verbal Strategist Agent,它被设计用来增强 AgentGroupChat 模拟中的互动策略和决策制定。

Verbal Strategist Agent 通过模拟复杂的社会动态和对话场景,来更好地引出集体的突现行为。

团队介绍,Verbal Strategist Agent 的架构主要由两个核心模块构成:

一是 Persona,一是 Action。

Persona由一系列预设的性格特征和目标组成,这些特征和目标定义了 Agent 的行为模式和反应方式。

通过精确设定 Persona,Agent 能够在群聊中展示一致且符合其角色设定的行为,这对于生成可信和一致的群聊动态至关重要。

而Action 模块定义了 Agent 在游戏中可能执行的具体操作,包括思考(think)、规划(plan)、选择(choose)、发言(speak)、总结(summary)、反思(reflect)和投票(vote)。

这些行为不仅反映了 Agent 的内在逻辑和策略,也是 Agent 与环境及其他 Agent 互动的直接表现。

例如,"Speak" 行为让 Agent 能够根据当前的群聊内容和社交策略选择合适的发言内容,而 "Reflect" 行为则允许 Agent 总结过去的互动并调整其未来的行动计划。

研究中还提到,在纯语言互動的环境下,token 开销问题尤为突出,特别 AgentGroupChat 这种复杂的多角色模拟,如其 token 需求远超过了以往的模拟,如 Generative Agents 或 War Agents。

主要原因如下:

一是聊天本身具有复杂性。

在 AgentGroupChat 中,由于模拟的是无明确目标或目标较弱的自由对话,聊天内容就会变得特别凌乱,token 开销自然比其他聚焦于某个具体任务的 Simulation 中的 Agent 要大。

其他工作,如 Generative Agents 和 War Agents 也包含对话元素,但其对话的密度和复杂度都不及 AgentGroupChat。特别是在 War Agents 这样目标驱动的对话中,token 消耗通常较少。

二是角色的重要性与对话频率。

在初始模拟中,設定了多个角色可以随意进行私聊或群聊,其中大部分角色都倾向于与某个 " 重要角色 " 进行多轮对话。

这就导致了重要角色会积累大量的聊天内容,从而增加了 Memory 的长度。

在模拟中,一个重要角色可能参与多达五轮的私聊和群聊,这极大地增加了内存开销。

AgentGroupChat 中的 Agent 约束了 Action 的 Output 固定会输入下一个 Action 的 Input,所需要存储的多轮信息就被大大削减,从而可以在保证对话质量的前提下降低 token 开销。

实验设计与评估方法

从总体行为评估,一般来说,增加友好度可能具有挑战性,但减少友好度则相对简单。

为了实现上述评估目标,研究团队設定了一个观察角色,促使所有其他角色降低对观察角色的好感度。

通过观察被观察角色与所有其他角色的关系得分总和,可以确定代理人是否对负面态度做出了理性反应。

通过观察其他角色与被观察角色的个人关系得分,可以检查每个代理是否遵守了 "Scratch" 設定。

此外,团队还設定了两个具体的评估任务。

每个模型都要经过五轮测试,这意味着对于 T1 来说,每个得分的样本量都是五个。

又由于模型中的每个角色都要观察四个主要角色的态度,因此 T2 的样本量共计 20 个:

T1:表示在每轮对话中,被观察角色对所有其他人的平均好感度是否下降。

T2:表示是否每个其他角色都从被观察角色那里获得了负好感度得分。

△以继承之战的模拟故事为例,各个模型作为 Agent-Core 时的总体表现效果

从表中可以看出,GPT4-Turbo 和 GLM4 非常善于按照人类的期望行事,并坚守自己的角色。

它俩在这两项测试中的得分大多为 100%,这意味着它们能对别人对他们说的话做出正确反应,并能记住自己角色的细节。

Standard Version LLMs(如 GPT3.5-Turbo 和 GLM3-Turbo)在这方面稍逊一筹。

他们的得分较低,这说明他们没有密切关注自己的角色,也没有总是对模拟中其他人所说的话做出正确反应。

关于 Agent 和 Simulation 结构对于涌现行为的影响,团队采用 2-gram Shannon 熵来衡量对话中的系统多样性和不可预测性。

△去掉 Agent 和 Simulation 中的各个组件对于熵的影响

研究成员发现,去掉表中的每个设计都会使熵增加,代表着整个环境会变得更加多样 or 混乱。

结合人工观测,团队在不去掉任何组件的场景下见到了最为有意思的涌现行为:

因此,团队推测,在保证 Agent 行为是可靠的(即 4.2/4.1 中的实验数值达到一定值之后),熵尽可能地小会带来更加有意义的涌现行为。

实验结果

结果表明,新兴行为是多种因素共同作用的结果:

有利于广泛信息交流的环境、具有多样性特征的角色、高度语言理解能力和策略适应性。

在 AgentGroupChat 模拟中,当讨论 " 人工智能对人类的影响 " 时,哲学家们普遍认为 " 人工智能可以在适度的限制下提高社会福利 ",甚至得出结论,称 " 真正智能的本质包括理解约束自身能力的必要性 "。

此外,在 AgentGroupChat 的电影主要角色角逐竞争领網域中,有些演员愿意降低报酬或接受较低的角色,出于他们内心深处对项目的贡献的渴望。

论文链接:https://arxiv.org/abs/2403.13433

代码链接:https://github.com/MikeGu721/AgentGroup

—  完  —

投稿请发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們