大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

小紅書讓智能體們吵起來了!聯合復旦推出大模型專屬群聊工具

2024-05-01 简体 HK SG TW

今天小編分享的科學經驗:小紅書讓智能體們吵起來了!聯合復旦推出大模型專屬群聊工具,歡迎閲讀。

語言,不僅僅是文字的堆砌,更是表情包的狂歡,是梗的海洋,是鍵盤俠的戰場(嗯?哪裏不對)。

語言如何塑造我們的社會行為?

我們的社會結構又是如何在不斷的言語交流中演變的?

近期,來自復旦大學和小紅書的研究者們通過引入一種名為AgentGroupChat的模拟平台,對這些問題進行了深入探讨。

WhatsApp 等社交媒體擁有的群聊功能,是 AgentGroupChat 平台的靈感來源。

在 AgentGroupChat 平台上,Agent 們可以模拟社會群體中的各種聊天場景,幫助研究人員深入理解語言在人類行為中的影響。

該平台簡直是大模型的 cosplay 勝地,它們進行角色扮演,成為各種各樣的 Agent。

然後,Agents通過語言交流參與社會動态,展現了個體間的互動如何湧現成群體的宏觀行為。

眾所周知,人類群體的進化,正來源于一次次湧現行為的發生,如社會規範的建立、衝突的解決和領導力的執行。

AgentGroupChat 環境的詳細設計

首先是角色設計。

AgentGroupChat 中,對于主要角色和非主要角色的區分非常關鍵。

主要角色是群聊的核心,擁有明确的遊戲目标,并能夠主動和所有角色進行私聊、會面,而非主要角色則更多地起到輔助和響應的作用。

通過這樣的設計,研究團隊可以模拟現實生活中的社交結構,并針對 " 主要研究對象 " 區分所有角色是否主要。

實驗案例中的主要研究對象是 Roy 家族,所以非 Roy 家族的人就全都設定為非主要角色,從而簡化互動復雜度。

其次是資源管理。

在 AgentGroupChat 中,資源不僅僅指物質的,更多的是指信息資源和社會資本。

這些資源可以是群聊話題、社會地位标志或特定的知識。

資源的分配和管理對于模拟群體動态非常重要,因為它們影響角色之間的互動和角色的策略選擇。

例如,擁有重要信息資源的角色可能會成為其他角色争取聯盟的目标。

第三,遊戲進程設計。

遊戲進程的設計模拟了現實生活中的社互動動過程,包括了私聊、會面、群聊、更新階段和結算階段。

這些階段不僅僅是為了推動遊戲進程,更是為了觀察角色如何在不同的社交場景下作出決策和反應。

這種分階段的設計幫助研究團隊詳細記錄每一步的互動,以及這些互動如何影響角色間的關系和角色對遊戲環境的認知。

Verb Strategist Agent 的核心機制

論文中提到了一個以大模型為基礎的智能體框架,Verbal Strategist Agent,它被設計用來增強 AgentGroupChat 模拟中的互動策略和決策制定。

Verbal Strategist Agent 通過模拟復雜的社會動态和對話場景,來更好地引出集體的突現行為。

團隊介紹,Verbal Strategist Agent 的架構主要由兩個核心模塊構成:

一是 Persona,一是 Action。

Persona由一系列預設的性格特征和目标組成,這些特征和目标定義了 Agent 的行為模式和反應方式。

通過精确設定 Persona,Agent 能夠在群聊中展示一致且符合其角色設定的行為,這對于生成可信和一致的群聊動态至關重要。

而Action 模塊定義了 Agent 在遊戲中可能執行的具體操作,包括思考(think)、規劃(plan)、選擇(choose)、發言(speak)、總結(summary)、反思(reflect)和投票(vote)。

這些行為不僅反映了 Agent 的内在邏輯和策略,也是 Agent 與環境及其他 Agent 互動的直接表現。

例如,"Speak" 行為讓 Agent 能夠根據當前的群聊内容和社交策略選擇合适的發言内容,而 "Reflect" 行為則允許 Agent 總結過去的互動并調整其未來的行動計劃。

研究中還提到,在純語言互動的環境下,token 開銷問題尤為突出,特别 AgentGroupChat 這種復雜的多角色模拟,如其 token 需求遠超過了以往的模拟,如 Generative Agents 或 War Agents。

主要原因如下:

一是聊天本身具有復雜性。

在 AgentGroupChat 中,由于模拟的是無明确目标或目标較弱的自由對話,聊天内容就會變得特别凌亂,token 開銷自然比其他聚焦于某個具體任務的 Simulation 中的 Agent 要大。

其他工作,如 Generative Agents 和 War Agents 也包含對話元素,但其對話的密度和復雜度都不及 AgentGroupChat。特别是在 War Agents 這樣目标驅動的對話中,token 消耗通常較少。

二是角色的重要性與對話頻率。

在初始模拟中,設定了多個角色可以随意進行私聊或群聊,其中大部分角色都傾向于與某個 " 重要角色 " 進行多輪對話。

這就導致了重要角色會積累大量的聊天内容,從而增加了 Memory 的長度。

在模拟中,一個重要角色可能參與多達五輪的私聊和群聊,這極大地增加了内存開銷。

AgentGroupChat 中的 Agent 約束了 Action 的 Output 固定會輸入下一個 Action 的 Input,所需要存儲的多輪信息就被大大削減,從而可以在保證對話質量的前提下降低 token 開銷。

實驗設計與評估方法

從總體行為評估,一般來説,增加友好度可能具有挑戰性,但減少友好度則相對簡單。

為了實現上述評估目标,研究團隊設定了一個觀察角色,促使所有其他角色降低對觀察角色的好感度。

通過觀察被觀察角色與所有其他角色的關系得分總和,可以确定代理人是否對負面态度做出了理性反應。

通過觀察其他角色與被觀察角色的個人關系得分,可以檢查每個代理是否遵守了 "Scratch" 設定。

此外,團隊還設定了兩個具體的評估任務。

每個模型都要經過五輪測試,這意味着對于 T1 來説,每個得分的樣本量都是五個。

又由于模型中的每個角色都要觀察四個主要角色的态度,因此 T2 的樣本量共計 20 個:

T1:表示在每輪對話中,被觀察角色對所有其他人的平均好感度是否下降。

T2:表示是否每個其他角色都從被觀察角色那裏獲得了負好感度得分。

△以繼承之戰的模拟故事為例,各個模型作為 Agent-Core 時的總體表現效果

從表中可以看出,GPT4-Turbo 和 GLM4 非常善于按照人類的期望行事,并堅守自己的角色。

它倆在這兩項測試中的得分大多為 100%,這意味着它們能對别人對他們説的話做出正确反應,并能記住自己角色的細節。

Standard Version LLMs(如 GPT3.5-Turbo 和 GLM3-Turbo)在這方面稍遜一籌。

他們的得分較低,這説明他們沒有密切關注自己的角色,也沒有總是對模拟中其他人所説的話做出正确反應。

關于 Agent 和 Simulation 結構對于湧現行為的影響,團隊采用 2-gram Shannon 熵來衡量對話中的系統多樣性和不可預測性。

△去掉 Agent 和 Simulation 中的各個組件對于熵的影響

研究成員發現,去掉表中的每個設計都會使熵增加,代表着整個環境會變得更加多樣 or 混亂。

結合人工觀測,團隊在不去掉任何組件的場景下見到了最為有意思的湧現行為:

因此,團隊推測,在保證 Agent 行為是可靠的(即 4.2/4.1 中的實驗數值達到一定值之後),熵盡可能地小會帶來更加有意義的湧現行為。

實驗結果

結果表明,新興行為是多種因素共同作用的結果:

有利于廣泛信息交流的環境、具有多樣性特征的角色、高度語言理解能力和策略适應性。

在 AgentGroupChat 模拟中,當讨論 " 人工智能對人類的影響 " 時,哲學家們普遍認為 " 人工智能可以在适度的限制下提高社會福利 ",甚至得出結論,稱 " 真正智能的本質包括理解約束自身能力的必要性 "。

此外,在 AgentGroupChat 的電影主要角色角逐競争領網域中,有些演員願意降低報酬或接受較低的角色,出于他們内心深處對項目的貢獻的渴望。

論文鏈接:https://arxiv.org/abs/2403.13433

代碼鏈接:https://github.com/MikeGu721/AgentGroup

—  完  —

投稿請發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

點這裏關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們