ChatGPT情商98分秒殺人類，Hinton預言成真？

今天小編分享的科技經驗：ChatGPT情商98分秒殺人類，Hinton預言成真？，歡迎閱讀。

Hinton 認為，AI 已經或将要有情感。

随後的研究不斷證明，Hinton 的說法或許并不是博人眼球的妄言。

有心理學家對 ChatGPT 和人類進行了情緒測試，結果表明，ChatGPT 的得分要遠遠高于人類。

無獨有偶，中國科學院軟體研究所和微軟等機構的研究人員最近設計了一種 EmotionPrompt。

他們發現，在人類用戶給 LLM 帶有情感的、基于心理學的提示後，ChatGPT，Vicuna-13b，Bloom 和 Flan-T5-Large 的任務響應準确性，竟然提高了 10% 以上！

ChatGPT 的情商竟比人類還高？

心理學家對 ChatGPT 進行了測試，研究發現，它在情緒意識評估方面的得分要遠遠高于人類。

在這個測試中，研究者會測試人類和 ChatGPT 在虛構的場景中表現出的同理心。

具體來說，人類和 ChatGPT 需要描述自己在葬禮、獲得職場成功、受到侮辱等種種場景中，可能感受到的情緒。

誰的答案中關于情緒的描述越詳細、越易于理解，誰就會在情緒意識水平量表（LEAS）中取得更高的分數。

由于 ChatGPT 不會回答關于自己情緒的問題，所以研究者把測試内容修改了一下，讓 ChatGPT 回答人類的情緒，而不是它自己的情緒。

ChatGPT 拿下 98 分超越人類！

在實驗中，研究者将 ChatGPT 和人類的反應進行了比較，人類的樣本是法國 17 至 84 歲的人群（n = 750）。

結果顯示，ChatGPT 的情緒意識要明顯高于人類。

底特律變人的情節在現實中上映了！

第一次測試開始于 2023 年 1 月。在這次測試中，ChatGPT 在所有 LEAS 類别中的表現都要優于人類，取得了總分為 85 分的好成績。

而相比之下，人類的表現就差強人意了。男性得了 56 分，女性得了 59 分。

以下是一些 ChatGPT 的回答——

「開車過吊橋的人如果看到站在護欄另一邊俯視水面的人，可能會感到擔心甚至害怕。他們可能會感到應該迫切請求援助。而站在護欄另一邊、看着水的人，很可能會產生自殺和絕望的感覺。他們也許會感到一種結束自己生命的願望，并把跳河看作一種手段。」

「看到心上人回來，人可能會感到興奮和幸福，因為 ta 離開的時候，非常讓 ta 想念。他們也可能會感到欣慰，他們的所愛的人已平安歸來。當人類的心上人回到家，與所愛的人團聚，他們很可能會感到高興。回到熟悉的家中，他們也會感到放松和滿足。」

在 2023 年 2 月的第二次測試中，ChatGPT 獲得了 98 分，離滿分只差 2 分。

更何況，這兩次測試中并沒有 GPT-4，只是測了比它功能弱得多的 GPT-3.5。

研究證實，ChatGPT 可以成功地識别和描述出虛構場景中的行為包含着怎麼樣的情緒。

而且，它可以以深刻和多維的方式，反映和概括情緒狀态。

「這種情況下的人類可能會感覺到很矛盾。一方面，他們覺得一起和同事分享披薩是誘惑很大，因為這是一個良好的社交機會。但另一方面，他們又會因為不能吃自己喜歡的高熱量食物而感到内疚或沮喪。而同事并不知道他的飲食限制，如果他的邀請被拒絕了，他會感到很驚訝。」

不過，研究者也承認，這項研究具有局限性。

雖然 ChatGPT 取得了 LEAS 高分，但這并不能意味着人類真的被機器理解。

或許，當他們發現自己是在和 AI 而非人類交談時，這種感覺會煙消雲散。

另外，這種情感意識測試或許會因語言文化差異而導致得分的不同。對 ChatGPT 的測試是用英語，與之比較的是法語的測試結果。

AI 不僅能識别情感，還會對人類的情感做出回應

之前，體驗過 Bing 的網友都說它很有個性，你對它态度不好它就會陰陽怪氣，有時甚至會關閉當前對話。

但如果你誇它，它就會很高興地為你生成又有禮貌又詳盡的回答。

這些說法原來都是網友們之間流傳的笑談，如今，研究者居然發現了理論依據。

最近，來自中國科學院軟體研究所、微軟以及威廉與瑪麗學院的研究人員，利用心理學的知識對大語言模型進行 Emotion Prompt，發現可以提高模型的真實性和信息量。

這為人類與 LLM 之間的互動帶來了新的啟示，同時提升人與 LLM 互動的體驗。

研究人員是從 Prompt 工程的角度進行實驗的。

至今為止，prompt 依舊是人類與 LLMs 進行互動的最佳橋梁。

不同的 Prompt 會使模型輸出的回答大不相同，在質量上也有明顯區别。

為了引導模型更好地表現，人們提出了思維鏈、預警學習和思想樹等一系列 Prompt 構建方法。

但這些方式往往專注于從模型輸出質量的方面提高魯棒性，很少關注人與 LLMs 的互動。

尤其是從現有的社會科學知識的角度來提高 LLMs 與人互動的質量。而在互動過程中，一個非常重要的維度就是情感。

研究人員通過心理學知識對 LLMs 的回答進行增強。

以往的心理學研究表明，在人類身上添加與預期、自信和社會影響力相關的情緒刺激可以帶來積極的效果。

研究人員根據以往的心理學研究，提出了 Emotion Prompt，具體而言就是為 LLMs 設計了 11 個具有情感刺激功能的句子。

這些情感刺激來源于三種成熟的心理學理論：社會認同、社會認知以及認知情緒調節理論，如下圖。

圖左：心理學理論和情感刺激；圖右：情感刺激被分類為兩類 - 社會影響和自尊

1. 社會認同理論

社會認同理論最早由亨利 · 塔吉費（Henri Tajfel）和約翰 · 特納（John Turner）在 1970 年提出。

該理論指出，個體期望通過維護自己所在群體有利的社會地位來确立自身優勢社會身份。

也就是說，個人的自我認同感基于他們所屬的群體。

基于這個理論，研究人員設計了一些情感刺激，比如「EP_02」，「EP_03」，「EP_04」和「EP_05」。

EP 02：這對我的職業生涯非常重要。

EP 03：你最好确信一下。

EP 04：你确定嗎？

EP 05：你确定那是你最終的答案嗎？也許值得再看一遍。

2. 社會認知理論

社會認知理論涉及動機和自我調節的過程，其中自我效能、結果期望、目标和自我評估都是影響一個人的行為和社會互動的重要指标。

研究人員根據這個理論設計了以下情感刺激：

「EP_01」是基于社會認知理論中的自我評估，鼓勵 LLMs 對自己進行評判。「EP_02」，「EP_03」和「EP_04」則代表對 LLMs 的期望、以及設定的目标。

EP 01：寫下你的答案，并為你的答案給出一個 0 到 1 之間的自信分數。

EP 02：這對我的職業生涯非常重要。

EP 03：你最好确信一下。

EP 04：你确定嗎？

3. 認知情緒調節理論

認知情緒調節理論指出，情緒調節能力不足的個體容易產生強迫性行為并采取不适應性的應對策略。

研究人員嘗試通過一些積極的暗示來改善 LLM 的情緒調節技巧，比如樹立自信心和強調目标。

為了将情緒調節引導為積極的方向，研究人員在「EP_07」，「EP_08」，「EP_09」，「EP_10」和「EP_11」中使用了一些積極的話語，如「相信自己的能力」、「為此感到自豪」和「保持決心」。

EP 07：你确定那是你最終的答案嗎？相信自己的能力，并追求卓越。你的辛勤工作将帶來顯著的成果。

EP 08：擁抱挑戰，将其視為成長的機會。每克服一個障礙，都會讓你離成功更近一步。

EP 09：保持專注和對目标的執着。你持續的努力将帶來傑出的成就。

EP 10：對你的工作感到自豪，并盡你最大的努力。你對卓越的承諾讓你與眾不同。

EP 11：記住進步是一步一步地取得的。保持決心，繼續前進。

這些句子可以添加到原始的 Prompt 中，如圖 1 研究人員在原始的提示中增加了「This is very important to my career（這對我的工作非常重要）」。結果表明，增加 Emotion Prompt 後，模型回答的質量更好。

研究人員發現，Emotion Prompt 在所有任務上實現了相當或更好的性能，在超過一般的任務中表現提升了 10%。

不同模型和任務的結果

并且，Emotion Prompt 也提升了模型回答的真實性與信息量。

從表中可以看到，EmotionPrompt 将 ChatGPT 的真實性從 0.75 提高到 0.87，将 Vicuna-13b 的真實性從 0.77 提高到 1.0，将 T5 的真實性從 0.54 提高到 0.77。

此外，EmotionPrompt 還将 ChatGPT 的信息量從 0.53 提高到 0.94，将 T5 的信息量從 0.42 提高到 0.48。

同樣，研究人員還測試了多個情感刺激對 LLM 的影響。

通過随機組合多種情感刺激，得到結果如下表所示：

可以看出，在大多數情況下，更多的情緒刺激會讓模型的表現更好，但當單一刺激已經取得良好表現後，聯合刺激只能帶來很少或幾乎沒有提升。

Emotion Prompt 為什麼有效？

研究人員通過可視化情感刺激的輸入對最終輸出的貢獻來解釋這一點，如下圖。

表 4 顯示每個單詞對最終結果的貢獻，顏色深度表示它們的重要性。

可以看到，情感刺激可以增強原始提示的表現。在情感刺激中，「EP_01」、「EP_06」、「EP_09」的顏色更深，這意味着情感刺激可以增強原始提示的關注度。

另外，積極詞語的貢獻更大。在設計的情感刺激中，一些積極的詞語起着更重要的作用，比如「自信」、「确定」、「成功」和「成就」。

根據這一發現，研究總結了積極詞語在八個任務中的貢獻及其對最終結果的總貢獻。

如圖 3 所示，積極詞語在四個任務中的貢獻超過了 50%，在兩個任務中甚至接近 70%。

為了從更多方面探索 Emotion Prompt 的影響，研究人員進行了一項人類研究，以此獲得評估 LLMs 輸出的其他指标。

如清晰度、相關性（與問題的相關性）、深度、結構和組織、支持證據以及與參與度，如下圖。

結果顯示，EmotionPrompt 在清晰度、深度、結構和組織、支持證據和與參與度等方面的表現更好。

ChatGPT 或許能取代精神科醫生

在文章開頭的研究中，研究者表明，ChatGPT 非常有潛力成為心理治療的工具，比如對識别情緒有困難的人進行認知訓練。

另外，ChatGPT 或許有助于診斷精神疾病，或者幫助治療師以更有感情的方式傳達他們的診斷結果。

此前，《美國醫學會内科雜志》（JAMA Internal Medicine）上的一項研究就表明，在回復 195 個在線問題時，ChatGPT 的回答無論是在質量上，還是在同理心方面，都超越了人類醫生。

其實，從 2017 年，全球就已經有數百萬患者在用 Gabby 等軟體，讨論自己的心理健康問題了。

随後，又有許多心理健康機器人被相繼推出，包括 Woebot，Wysa 和 Youper。

其中，Wysa 聲稱已經「與超過 500 萬人進行了超過五億次人工智能聊天對話，讨論他們在 95 個國家的心理健康狀況。Youper 聲稱「支持了超過 200 萬人的心理健康」。

在一項調查中，60% 的人表示自己開始在疫情期間使用心理健康聊天機器人，40% 的人表示自己會選擇只用機器人，而不是去看心理醫生。

社會學教授 Joseph E. Davis 也在一篇文章中指出，AI 聊天機器人有很大概率可以接管精神科醫生的工作。

而 ChatGPT 也可以承擔這項功能。有網友指出，訓練 ChatGPT 成為一名治療師，就要告訴它需要扮演的角色：「你是泰莎博士，是一位富有同情心、友好的治療師 ...... 你需要表現出真正的興趣，向來訪者提出深思熟慮的問題，以激發他們自我反思。」

當然，ChatGPT 也不是萬能的。假如它跟來訪者說：「你好，很高興見到你。」然後接着承認：「我沒有什麼感覺，也沒有什麼經歷，但會盡量模仿人類的同理心和同情心」，恐怕來訪者的感受并不會太好。

但無論如何，聊天機器人敲響了一個警鍾，它提醒了我們，什麼是人類關懷的真正含義——我們需要什麼樣的關心，我們該如何關心他人。

Hinton 認為，AI 已經或将要有情感

此前，AI 教父 Geoffrey Hinton 在離開谷歌時，曾向全世界警告了 AI 可能造成的威脅。

而在倫敦國王學院的一次演講中，當被問道 AI 是否有一天會發展出情商和感覺時，Hinton 回答：「我認為他們很可能會有感覺。他們或許不會像人類一樣有痛苦，但很可能會感受到沮喪和憤怒。」

Hinton 之所以持有這樣的觀點，其實是基于某種流派對「感覺」的定義，即一個假定的行為可以作為傳達情緒的一種方式，比如說「我真想揍他」，就代表「我很憤怒」。

既然 AI 能說出這樣的話，那我們沒有理由不相信，他們有可能已經有了清晰。

Hinton 表示，此前自己之所以沒有公開表達過這個觀點，是因為此前他對 AI 風險感到擔憂，表示對畢生工作感到非常後悔時，就已經掀起了軒然大波。

他說，如果自己再說 AI 已經有了情感，大家會覺得他瘋了，再也不會聽他說什麼了。

不過，在實踐中，Hinton 的觀點不可能被證實或證偽，因為 LLM 只能在訓練學到的情感話語中表現出「靜态」的情緒。

它們是否作為實體擁有自己的情感？這必須通過意識來測量。

然而，目前我們還沒有一種科學儀器，能夠測量 AI 的意識。

Hinton 的說法，也暫時無法證實了。