為什麼大語言模型沒能“殺死”心理學？

今天小編分享的科技經驗：為什麼大語言模型沒能“殺死”心理學？，歡迎閱讀。

文 | 追問 nextquestion

自 2022 年底以來，ChatGPT 如一股澎湃的春潮，席卷了全球，人們對其潛在的應用場景無不心生向往。商界人士、學者乃至日常生活中的普通人，都在思索同一個問題：自己的工作未來會如何被 AI 塑造？

随着時間流逝，很多構想逐漸落地，人類似乎已經習慣于 AI 在許多工作場景幫助甚至替代我們的實際工作。早期人們對 GPT 的恐懼逐漸消散，反而變得過度依賴 GPT，甚至忽略了可能的局限性與風險。這種大肆依賴 GPT 并忽視其風險的情況，我們稱之為 "GPT 學 "（GPTology）。

心理學的發展一直緊緊跟随科技的創新，社會學家與行為科學家總是依賴盡可能多的技術來收集豐富的數據類型，從神經影像技術、在線調查平台到眼動追蹤技術的開發等，都助力心理學取得了關鍵性的突破。數字革命和大數據的興起推動了計算社會科學等新學科的形成。正如其他領網域（醫學 [ 1 ] 、政治 [ 2 ] ）一樣，能夠以驚人的微妙性和復雜性理解、生成和翻譯人類語言的大語言模型（LLM），對心理學也產生了深遠的影響。

在心理學領網域，大語言模型有兩類主流應用模式：一方面，通過研究大語言模型本身的機制，可能對人類認知的研究提供新的見解；另一方面，這些模型在文本分析和生成方面的能力，使得它成為了分析文本數據的強大工具，如它們能将個人的書面或口頭表達等文本數據，轉化為可分析的數據形式，從而協助心理健康專業人員評估和理解個體的心理狀态。最近，使用大語言模型促進心理學研究的成果大量湧現，ChatGPT 在社會與行為科學領網域的應用，如仇恨言論分類、情感分析等，已顯示出其初步成果和廣闊的發展前景。

然而，我們應該放任現在 "GPT 學 " 的勢頭在科研領網域肆虐嗎？事實上所有科技創新的融合過程總是充滿動蕩的，放任某種技術的應用與對其依賴過深，都可能會導致意想不到的後果。回望心理學的發展歷程，當功能性磁共振成像（fMRI）技術初露鋒芒時，便有研究者濫用此技術，導致了一些荒謬卻在統計學上顯著的神經關聯現象——譬如，研究人員對一條已經死亡的大西洋鲑魚進行了 fMRI 掃描，結果顯示該魚在實驗期間表現出顯著的腦活動；還有研究表明，由于統計誤用，fMRI 研究中發現虛假相關性的可能性極高。這些研究已經進入心理學的教科書，警示所有心理學學生與研究人員在面對新技術時應保持警惕。

▷Abdurahman, Suhaib, et al. "Perils and opportunities in using large language models in psychological research." PNAS nexus 3.7 ( 2024 ) : pgae245.

可以說，我們已經進入了與大語言模型相處的 " 冷靜期 "，除了思考大語言模型可以做什麼，我們更需要反思是否以及為何要使用它。近日 PNAS Nexus 的綜述論文便探讨了大語言模型在心理學研究中的應用，及其為研究人類行為學帶來的新機遇。

文章承認 LLMs 在提升心理學方面的潛在效用，但同時也強調了對其未經審慎應用的警惕。目前這些模型在心理學研究中可能引起的統計上顯著但意義不明确的相關性，是研究者必須避免的。作者提醒到，面對近幾十年來該領網域遇到的類似挑戰（如可信度革命），研究人員應謹慎對待 LLMs 的應用。該文還提出了在未來如何更批判性和謹慎性地利用這些模型以推進心理學研究的方向。

01 大語言模型可以替代人類被試嗎？

提到大語言模型，人們最直觀的感受便是其高度 " 類人 " 的輸出能力。Webb 等人考察了 ChatGPT 的類比推理能力 [ 3 ] ，發現它已湧現出了零樣本推理能力，能夠在沒有明确訓練的情況下解決廣泛的類比推理問題。一些人認為，如果像 ChatGPT 這樣的 LLM 确實能夠對心理學中的常見測量產生類似人類的響應（例如對行動的判斷、對價值的認可、對社會問題的看法），那麼它們在未來可能會取代人類受試者群體。

針對這個問題，Dillion 等人進行了專門的研究 [ 4 ] ：首先，通過比較人類與語言模型（GPT-3.5）在道德判斷上的相關性，他們肯定了語言模型可以復制一些人類判斷的觀點；但他們也提出了解釋語言模型輸出的挑戰。從原理上說，LLM 的 " 思維 " 建立在人類的自然表達之上，但實際能代表的人群有限，并且有過于簡化人類復雜行為思想的風險。這是一種警示，因為這種對 AI 系統拟人化的傾向可能會誤導我們，讓我們期望那些基于根本不同原理運行的系統表現出類人表現。

從目前的研究來看，使用 LLM 模拟人類被試至少有三大問題。

首先，認知過程的跨文化差異是心理學研究中極為重要的一環，但很多證據表明，目前流行的大語言模型無法模拟出這樣的差異。像 GPT 這樣的模型主要基于 WEIRD（西方、受過教育的、工業化的、富裕的、民主的）人群的文本數據訓練。這種以英語為中心的數據處理延續了心理學的英語中心主義，與對語言多樣性的期待背道而馳。語言模型也因此難以準确反映大眾群體的多樣性。例如，ChatGPT 顯示出偏向男性視角和叙事的性别偏見，偏向美國視角或一般多數人群的文化偏見，以及偏向自由主義、環保和左翼自由意志主義觀點的政治偏見。這些偏見還延伸到個性、道德和刻板印象。

總的來說，由于模型輸出高度反映 WEIRD 人群心理，當人類樣本不那麼 WEIRD 時，AI 與人類之間的高度相關性無法重現。在心理學研究中，過度依賴 WEIRD 被試（例如北美的大學生）的現象一度引發了讨論，用 LLM 的輸出替代人類參與者将是一個倒退，會使得心理學研究變得更加狹隘，普适性更差。

▷将 ChatGPT 與按政治觀點分組的人類對 " 大五人格 " 的反應進行比較。注：圖中顯示了人類和 ChatGPT 在大五人格結構和不同人口統計數據中的響應分布。圖中顯示，ChatGPT 在宜人性、盡責性方面給出了顯着更高的響應，而在開放性和神經質方面給出了顯着較低的響應。重要的是，與所有人口統計群體相比，ChatGPT 在所有個性維度上顯示出顯着較小的差異。

其次，大語言模型似乎存在 " 正确答案 " 偏好，也就是說LLM 在回答心理學調查的問題時變化幅度較小——即使這些問題涉及的主題（例如道德判斷）并沒有實際的正确答案——而人類對這些問題的回答往往具有多樣性。當要求 LLM 多次回答同一個問題，并測量其回答的差異時，我們會發現大語言模型的回答無法像人類一樣產生思想上顯著的差異。這依舊與生成式語言模型背後的原理分不開，它們通過自回歸的方式計算下一個可能出現的單詞的概率分布來生成輸出序列。從概念上講，反復向 LLM 提問類似于反復向同一個參與者提問，而不是向不同的參與者提問。

然而，心理學家通常感興趣的是研究不同參與者之間的差異。這警告我們當想用大語言模型模拟人類被試時，不能簡單地用大語言模型模拟群體平均值，或用它模拟個體在不同任務中的反應；應當開發出合适的方法真實再現人類樣本復雜性。此外，訓練大語言模型的數據可能已經包含許多心理學實驗中使用的項目和任務，導致模型在接受測試時依賴記憶而不是推理，又進一步加劇了上述問題。為了獲得對 LLM 類人行為的無偏評估，研究人員需要确保他們的任務不屬于模型的訓練數據，或調整模型以避免影響實驗結果，比如通過 " 去學習 " 等方法。

最後，GPT 是否真的形成與人類類似的道德體系也是值得懷疑的。通過向 LLM 提問，建立它内在的邏輯關系網絡（nomological network），觀察不同道德領網域之間的相關性，發現這兩個指标都與基于人類得到的結果大不相同。

▷ChatGPT 與人類道德判斷。注：a）人類道德判斷（淺藍色）和 GPT（淺紅色）在六個道德領網域的分布。虛線代表平均值。b ) 人類道德價值觀之間的相互關系（?=3902）和 ChatGPT 問答（?=1000 ⁠）。c ) 基于來自 19 個國家 ( 30 ) 的不同人類樣本和 1000 個 GPT 問答的道德價值觀之間的部分相關網絡。藍色邊緣表示正偏相關，紅色邊緣表示負偏相關。

總結來說，LLM 會忽略人群的多樣性，無法表現出顯著性差異，無法復現邏輯關系網絡——這些不足告訴我們，LLM 不應該取代對智人（Homo sapiens）的研究，但這并不意味着心理學研究要完全摒棄 LLM 的使用。一方面，将傳統上用于人類的心理學測量用于 AI 的确有趣，但是對其結果的解讀應當更加謹慎；另一方面，将 LLM 作為人類的代理模型模拟人類行為時，其中間層參數可以為我們提供探索人類認知行為的潛在角度，但這一過程應該在嚴格定義了環境、代理、互動及結果的前提下進行的。

由于 LLM 的 " 黑箱 " 特征，以及前文提到的輸出經常與人類真實行為不一樣的現狀，這種期盼還很難成真。但我們可以期待，未來也許可以開發出更穩健的程式，使得在心理學研究中的 LLM 模拟人類行為變得更加可行。

02 大語言模型是文本分析的萬金油嗎？

除了其仿人的特質，LLM 最大的特點便是其強大的語言處理能力，然而将自然語言處理方法用于心理學研究并不是新生之物，想要理解為什麼 LLM 的應用引起當下如此大的争議，我們需要了解它在應用上與傳統的自然語言處理方法有什麼不同。

使用預訓練語言模型的自然語言處理（NLP）方法，可以按照是否涉及參數更新分為兩類。涉及參數更新意味着将預訓練的語言模型在特定任務的數據集上進行進一步訓練。相比之下，零樣本學習（zero-shot learning）、單樣本學習（one-shot learning）和少樣本學習（few-shot learning）則不需要進行梯度更新，它們直接利用預訓練模型的能力，從有限的或沒有任務特定數據中進行泛化，借助模型的已有知識和理解來完成任務。

LLM 能力的跨時代飛躍——例如它能夠在無需特定任務調整的情況下處理多種任務，用戶友好的設計也減少了對復雜編碼的需求——使得最近越來越多研究将其零樣本能力 * 用于心理學文本分析，包括情感分析、攻擊性語言識别、思維方式或情感檢測等多種方面。

*LLM 零樣本能力是指模型在沒有接受過特定任務的訓練或優化的情況下，直接利用其預訓練時獲得的知識來理解和執行新的任務。例如，大語言模型能在沒有針對性訓練數據的支持下，通過理解文本内容和上下文，識别文本是積極的、消極的還是中性的。

然而，随着應用的深入，越來越多的聲音開始指出 LLM 的局限性。首先，LLMs 在面對微小的提示變化時可能會產生不一致的輸出，并且在匯總多次重復對不同提示的輸出時，LLM 有時也無法達到科學可靠性的标準。其次，Koco ń 等人 [ 5 ] 發現，LLMs 在處理復雜、主觀性任務（如情感識别）時可能會遇到困難。最後，反觀傳統的微調模型，LLMs 零樣本應用的便利性與模型微調之間的差異可能并不像通常認為的那樣顯著。

我們要知道，針對各種任務微調過的小型語言模型也不斷在發展，如今越來越多的模型變得公開可用；同時也有越來越多高質量和專業化的數據集可供研究人員用于微調語言模型。盡管 LLMs 的零樣本應用可能提供了即時的便利性，但最便捷的選擇往往并不是最有效的，研究者應在被便利性吸引時保持必要的謹慎。

為了更直觀地觀察 ChatGPT 在文本處理方面的能力，研究者們設定了三種水平的模型：零樣本、少樣本和微調，來分别提取在線文本中的道德價值觀。這是一個艱巨的任務，因為即使是經過培訓的人類标注者也常常意見不一。語言中道德價值觀的表達通常極度隐晦，而由于長度限制，在線帖子往往包含很少的背景信息。研究者提供了 2983 個包含道德或非道德語言的社交媒體帖子給 ChatGPT，并要求它判斷帖子是否使用了任何特定類型的道德語言。然後将其與一個在單獨的社交媒體帖子子集中微調的小型 BERT 模型進行了比較，以人類評價者的判定作為評判标準。

結果發現，微調後的 BERT 模型表現遠勝于零樣本設定下的 ChatGPT，BERT 達到了 0.48 的 F1 分數，而 ChatGPT 只有 0.22，即使是基于 LIWC 的方法也在 F1 分數上超過了 ChatGPT（零樣本），達到了 0.27。ChatGPT 在預測道德情感方面表現得極其極端，而 BERT 幾乎在所有情況下與經過培訓的人類标注者的差異并不顯著。

盡管 LIWC 是一個規模更小、復雜度更低且成本更低的模型，但在偏離經過訓練的人類标注者方面的可能性和極端程度顯著低于 ChatGPT。如預期的那樣，在實驗中，少樣本學習和微調均提升了 ChatGPT 的表現。我們得出兩個結論：首先，LLM 所宣稱的跨上下文和靈活性優勢可能并不總是成立；其次，雖然 LLM" 即插即用 " 很是便利，但有時可能會徹底失敗，而适當的微調可以緩解這些問題。

除了文本标注中的不一致性、解釋復雜概念（如隐性仇恨言論）的不足，以及在專業或敏感領網域可能缺乏深度這幾個方面外，缺乏可解釋性也是 LLM 飽受诟病之處。LLMs 作為強大的語言分析工具，其廣泛的功能來自于龐大的參數集、訓練數據和訓練過程，然而這種靈活性和性能的提升是以降低可解釋性和可重復性為代價的。LLM 所謂的更強預測能力，是心理學文本分析研究者傾向于使用基于神經網絡的模型的重要原因。但如果無法顯著超越自上而下的方法的話，那麼後者在可解釋性上的優勢可能促使心理學家及其他社會科學家轉而使用更傳統的模型。

綜合來看，在許多應用場景中，較小的（經過微調的）模型可以比當前的大型（生成式）語言模型更強大且更少偏差，尤其當大語言模型處于零樣本和少樣本設定中時。比如，在探索焦慮症患者在線支持論壇的語言時，使用較小的、專門化的語言模型的研究人員可能能夠發現與研究領網域直接相關的微妙細節和特定的語言模式（例如，擔憂、不确定性的耐受性）。這種有針對性的方法可以深入了解焦慮症患者的經歷，揭示他們獨特的挑戰和潛在的幹預措施。通過利用專門化的語言模型或像 CCR、LIWC 這樣的自上而下的方法，研究人員可以在廣度和深度之間取得平衡，從而能夠更精細地探索文本數據。

盡管如此，LLMs 作為文本分析工具，在微調數據稀缺的情況下——例如新興概念或研究不足的群體時——其零樣本能力可能仍然可以提供有價值的表現，使研究人員能夠探讨一些緊迫的研究課題。在這些情況下，采用少樣本提示（few-shot prompting）的方法可能既有效又高效，因為它們只需要少量具有代表性的示例即可進行。

另外，有研究表明 LLMs 可以從理論驅動的方法中受益，基于這個發現，開發能夠結合這兩種方法優勢的技術，是未來研究的一個有前景的方向。随着大型語言模型技術的快速進展，解決其性能和偏差問題只是時間問題，預計這些挑戰将在不遠的将來得到有效緩解。

03 不可忽略的可重復性

可重復性指的是使用相同的數據和方法可以復制和驗證結果的能力。然而，LLM 的黑箱特性使得相關研究結果難以再現。對依賴 LLM 生成的數據或分析的研究來說，這一限制構成了實現再現性的重大障礙。

例如，LLM 經過更新，其偏好可能會發生變化，這可能會影響先前已建立的 " 最佳實例 " 和 " 去偏差策略 " 的有效性。目前，ChatGPT 及其他閉源模型并不提供它們的舊版本，這限制了研究人員使用特定時間點的模型來復現研究結果的能力。例如，"gpt3.5-January-2023" 版本一旦更新，先前的參數和生成的輸出也可能随之改變，這對科研的嚴謹性構成挑戰。重要的是，新版本并不保證在所有任務上的性能都會相同或更好。例如，GPT-3.5 和 GPT-4 被報道在各種文本分析任務上存在不一致的結果—— GPT-4 有時表現得比 GPT-3.5 更差 [ 6 ] ——這進一步加深了人們對模型的非透明變化的擔憂。

除了從科學的開放性（open science）角度來看 LLM 的黑箱性質，研究人員更在意的其實是 " 知其然，知其所以然 " 的科研精神——在獲得高質量、有信息量的語義表示時，我們更應該關注的是用于生成這些輸出的算法，而不是輸出結果本身。在過去，計算模型的主要優勢之一在于它們允許我們 " 窺探内部 "，某些心理過程難以被測試但可以通過模型進行推斷。因此，使用不提供此級别訪問權限的專有 LLMs，可能會阻礙心理學和其他領網域研究者從計算科學的最新進展中獲益。

04 總結

新一代對大眾開發的在線服務型 LLM（如 ChatGPT、Gemini、Claude）為許多研究人員提供了一個既強大又易于使用的工具。然而，随着這些工具的普及和易用性的增加，研究人員有責任保持對這些模型能力與局限性的清醒認識。尤其是在某些任務上，由于 LLM 的出色表現和高度互動性，可能會讓人們誤以為它們始終是研究對象或自動化文本分析助手的最佳選擇。這些誤解可能會簡化人們對這些復雜工具的理解，并作出不明智的決定。例如為了方便或因為缺乏認識而避免必要的微調，從而未能充分利用其全部能力，最終得到相對較差的效果，或者忽視了與透明度和再現性相關的獨特挑戰。

我們還需要認識到，許多歸因于 LLM 的優勢在其他模型中也存在。例如，BERT 或開源的 LLM 可以通過 API 訪問，為無法自我托管這些技術的研究人員提供了一個方便且低成本的選擇。這使得它們在無需大量編碼或技術專業知識的情況下也能被廣泛使用。此外，OpenAI 還提供了嵌入模型，如 "text-embedding-ada-3"，可以像 BERT 一樣用于下遊任務。

歸根結底，任何計算工具的負責任使用都需要我們全面理解其能力，并慎重考慮該工具是否為當前任務最适合的方法。這種平衡的做法能夠确保技術進步在研究中得到有效和負責任的利用。

參考文獻

[ 1 ] SINGHAL K, AZIZI S, TU T, et al. Large language models encode clinical knowledge [ J ] . Nature, 2023, 620 ( 7972 ) : 172-80.

[ 2 ] MOTOKI F, PINHO NETO V, RODRIGUES V. More human than human: measuring ChatGPT political bias [ J ] . Public Choice, 2024, 198 ( 1 ) : 3-23.

[ 3 ] WEBB T, HOLYOAK K J, LU H. Emergent analogical reasoning in large language models [ J ] . Nat Hum Behav, 2023, 7 ( 9 ) : 1526-41.

[ 4 ] DILLION D, TANDON N, GU Y, et al. Can AI language models replace human participants? [ J ] . Trends Cogn Sci, 2023, 27 ( 7 ) : 597-600.

[ 5 ] KOCO Ń J, CICHECKI I, KASZYCA O, et al. ChatGPT: Jack of all trades, master of none [ J ] . Information Fusion, 2023, 99: 101861.

[ 6 ] RATHJE S, MIREA D-M, SUCHOLUTSKY I, et al. GPT is an effective tool for multilingual psychological text analysis [ Z ] . PsyArXiv. 2023.10.31234/osf.io/sekf5