大語言模型如何宣告心理學的死亡？

今天小編分享的财經經驗：大語言模型如何宣告心理學的死亡？，歡迎閲讀。

圖片來源@視覺中國

文 | 追問NextQuestion

在心理學的歷史長河中，我們一直在追求對人類心理的深入理解。我們試圖解碼思維、情感和行為背後的復雜機制，希望借此洞悉人類行為的本質。但随着人工智能技術的飛速發展，特别是大語言模型（LLM）的興起，我們似乎站在了一個新的十字路口。AI不再只是技術進步的象征，它已經開始挑戰我們對心理學——甚至是我們對智能本身——的傳統理解。

人工智能心理學（AIP），或者説機器心理學（MP），正成為一個頗具争議的新領網域。在這裏，我們不再只是問"人類心理是如何運作的"，而是開始問"AI是否具有心理特性"，以及"人工智能如何影響我們對心理學的理解"。

在這篇文章中，我們将探讨人工智能心理學中制約領網域發展，盤旋上空的三個幽靈：行為主義的遺留，相關性的困惑，以及隐性知識的挑戰。每一個幽靈都暗指傳統心理學曾經忽略的問題，本文将從大語言模型的視角提供新的見解。

行為主義的幽靈

延續人類心理學的研究方法

心理學家在談論一個人的人格或者一個人的心理時，其實是在深入了解他的思維模式、情感反應和行為方式。這些通常被視為一組相對穩定的特質。通過操作性定義，研究者将這些穩定的特質轉化為可以觀察和量化的行為數據或問卷得分1。可以説，心理學家将人類心理看成"黑箱"，只能通過實驗室或者自然刺激來解釋行為數據的差異，進而推測心理狀态。

現代心理學雖然開始強調思維和情感的重要性，但在實踐中，仍然過分依賴于行為數據和外部觀察。就連神經科學對神經回路的研究，也同樣建造于行為表現之上。盡管當前的研究者不願承認，但人類心理學實質上延續了行為主義方法，無論直接還是間接，它們都側重于觀察行為，而對内在心理狀态束手無策2。

類似的，在人工智能領網域，特别是在LLM的研究中，這種行為主義思維依然盛行。盡管LLM 是人類所創造的，但它擁有數以億計的機器學習參數以及過于復雜的認知架構，這些迫使研究者關注模型輸入（提示）和輸出（回應）之間的相關性，而非探究LLM的内在特性或神經網絡結構。這種方法與人類心理學的行為主義測試思路類似，它檢測出的相關性，無法揭示人類認知心理學所追求的更深層的内在聯系，而只是停留在信号與行為之間的表面測試上。

盡管如此，人工智能心理學家們還是試圖借鑑曾用于人類參與者的實驗室基礎範式或問卷調查，對他們進行修改和遷移，來評估LLM的行為模式或特定能力。近期的一些研究，如Zou等人提出的"表示工程"（Representation Engineering，RepE）3和Bricken等人解析LLM中特定行為對應的神經元激活模式4，都在嘗試突破行為主義的局限。

然而，這些方法可能仍舊局限于探索表面的相關性，而不是深入的因果關系。就像神經影像技術的局限那樣，這些研究可能容易找到特定腦區、神經回路或者機器參數與特定任務的關聯，但這些發現往往缺乏深入的理論支撐。換句話説，我們可能只是在匯總無數的現象，而未能構建一個脱離簡單相關性的更全面的理解框架。

如果不妥善對待行為主義的幽靈，人工智能心理學家們很可能會重走人類心理學的彎路，甚至會因為缺乏演化的動力學框架而偏離的更遠。反過來説，我們即将在人工智能心理學上遇見的行為主義幽靈，也會讓我們反思人類心理學的研究方法是否已經停滞了太長時間。

甚至有悲觀者認為，随着LLM的崛起，基于問卷或者實驗的研究慢慢都會被取代，最終一定會發現，我們做了那麼多，其實都是語義網絡的副產品，後面那一大串潛在的機制和理論可能根本不存在。認知心理學不過是行為主義的包裝和換皮。B. F. 斯金納則從來沒錯過。

▷ 使用LAT檢測LLM是否在説謊的Neural activity差異的示例。來源：Zou, Andy, et al. "Representation engineering: A top-down approach to ai transparency." arXiv preprint arXiv:2310.01405 (2023).

作為實驗室任務參與者的LLM

人工智能心理學家們正在深入探索LLM的心理學特質，他們的研究揭示了LLM與人類認知機制在多大程度上存在差異和相似性。比如Chen等人5和Horton等人6在2023年的研究中，利用行為經濟學框架，讓GPT扮演決策者，來評估其在不同選擇環境下展現的理性水平。同年，Aher等人利用GPT復現了最後通牒博弈、花園小徑句子等經典的經濟、心理語言學和社會心理學實驗7。最新研究也強調了它們與人類心理學研究的相關性8。而這些已經促成了一種"GPT+心理學分支"的局面9。

▷ 連接人類和人工智能心理學，描述潛在的研究問題和實例研究。來源：Hagendorff, T. (2023). Machine Psychology: Investigating Emergent Capabilities and Behavior in Large Language Models Using Psychological Methods (arXiv:2303.13988). arXiv. https://doi.org/10.48550/arXiv.2303.13988

這些研究者認為，人工智能心理學的主要目的不是關注LLM在标準數據集（如HellaSwag、WinoGrande、SuperGLUE、CommonsenseQA、MATH、HANS和BIG-bench）上的表現，也不在于消除LLM的幻覺，而是試圖理解LLM在處理這些任務時所展現的深層次結構，如啓發式方法或創造力。

然而，對于LLM是否具有心理特性，研究者間存在分歧。一方面，有些研究者較為保守，他們只是報告了自己如何将傳統的實驗室任務轉化為适合LLM的API任務，并匯報不同LLM模型之間及與人類參與者之間的表現差異。這種方法着重于觀察和記錄，但并不深入探究LLM的内在心理特質。另一方面，更激進的人工智能心理學支持者則采取了不同的視角。他們傾向于将LLM表現出的特定行為視為其心理學特征的體現，并高興地宣稱這些特征在從狹義人工智能向通用人工智能的演進中扮演着關鍵角色。

值得注意的是，這兩種對立的觀點都僅僅只是説辭上的差異，人們既可以認為人工智能心理學研究者的工作僅相當于LLM的測試員的日常任務，也可以認為心理學家們正在發掘LLM的心理特質。同樣，人們既可以将LLM所表現出的穩定的偏見歸結于某種算法的局限，也可以認為這是LLM所具備的心理特征，這取決于研究者的視角。

比如，實證研究表明，LLM所展示的穩定偏見可以被視為算法的局限，也可以被看作是它們獨有的"心理特征"。例如，由于訓練數據和算法的偏差，GPT模型通常反映自由派、富裕人士和受過良好教育的人口統計數據的觀點，而一些基礎LLM則更适合中等收入、低收入和基督教群體10。

研究者指出，這是訓練數據的不對齊導致的偏見，因而這成為了一種需要被糾正的技術問題。可是這和人類兒童接受不同文化的熏陶而導致對特定問題產生的不同見解又有多大不同呢？人類同樣需要通過不同于文本的多樣化經歷，如大量的旅行和閲讀來獲得寬容謙卑的品格，以尊重不同的文化習俗，這難道也是一種技術性問題？

此外，研究者在質疑LLM是否具備心理特性時，常常引用中文屋的思想實驗。但他們仍然會去争論人類是否存在心理或者自由意志，即使這個領網域的讨論也充滿了争議。但他們呈現出的思路卻是，就算有争論，人類心理也是可以研究的。這放在LLM上又未嘗不可呢？如果這些研究方法都受到隐秘的行為主義的影響，那麼從某種意義上説，研究者也在将LLM當作人類來研究。

在這場探索中，一些保守的AI心理學家或測試員可能不願意深陷于探讨AI是否真正具有心理特性的泥潭。這類探索，就像深入探讨人類是否擁有自由意志一樣，可能會導致知識發展的停滞。然而，科技的進步總是能夠帶領我們回到這些根本性問題上。因此，他們相信随着AI技術的發展，未來的研究将再次回歸根本，那時類似的問題已然迎刃而解11。

行為主義框架下的研究方法

當我們看向人工智能心理學，就像走進了一個復雜的灌木叢。這個領網域，就像它的前輩人類心理學一樣，深陷于行為主義的迷宮——在沒有統一理論框架的情況下，僅僅聚焦于描述和歸類各種經驗現象，卻往往忽視了行為背後的深層次原因和内在過程。比如，我們知道某些人在特定條件下會表現出某種行為（"普利克效應"、"達納效應"等），但我們并不真正理解為什麼會這樣。這種現象在人工智能心理學中同樣存在。目前，這個領網域裏的大多數研究成果只是孤立的經驗現象的描述和總結。我們看到了LLM（大型語言模型）的行為，但并不深入理解它們為什麼會有這樣的表現。

毫無疑問，在未來同樣會有人工智能心理學家們會像人類心理學家們一樣，試圖将這些具體的、中層理論提升為更廣泛的、一般性的理論，以期提供一個全面的框架來解釋研究的多個方面。然而，這樣的嘗試會遭受與人類心理學相同的批評——即這種一般性理論很可能是一種過度簡化的，甚至具有賭博色彩的幻覺。他們将中層理論不加限制地外推，直到遇到阻礙。這種過度渴望秩序性出現的做法，有時會導致我們錯誤地将行為與外部刺激之間的相關關系理解為理論驅動的因果關系。

對于人類心理學來説，好消息是演化心理學提供的動力學框架可以解釋和容納大部分人類心理學的各個經驗描述。因為從根本上來説，地球上生物的心理首先得是一套用來維持生存的工具，那麼這種心理特質和行為模式再怎麼不确定，至少在其演化的過程中對于生存和繁衍就應該是有益的。然而，當我們轉向LLM，演化心理學的框架似乎就不再适用了。

LLM是基于人類創造的算法和海量數據在極短的時間内（相較于人類歷史）訓練出來的產物，它們也許能夠預測人類的行為，解決復雜的問題，但它們并不是具身的生物。

盡管它們可能更好的掌握人類的隐知識，從而更好的預測人類的适應性行為，還可以（無需任何特殊提示）解決涉及數學、編碼、視覺、醫學、法律、心理學等領網域的新穎而困難的任務8，但它始終不是一個具身的有實體生物。它完全基于語言，缺乏提供人類決策信息的體驗、感官刺激或基礎經驗，沒有适應性壓力，也沒有生存的動力12。

LLM沒有基于時間的演化歷史，因此它們缺乏人類那樣的基于漫長演化歷史所積澱形成的層次性心理結構和特異性心理系統。這意味着LLM難以呈現人類在面對新舊行為模式衝突時的權衡，也無法展現由于進化慣性在現代社會中產生的失配現象（mismatch）。對于LLM自身所湧現的特質而言，它最多只能被灌輸或者訓練成看起來像是在"努力追求生存"的樣子。

好消息是，LLM不再需要像人類那樣背負起沉重的歷史包袱，它的基礎設定完全可以根據環境需要進行更加靈活的調整。但壞消息是，LLM本質上可能缺乏穩定的自我概念（也許根本沒有也不需要有自我這個演化的概念），它們的表現可能無法被統一的進化框架所解釋。這意味着灌木叢科學的永夜可能一直籠罩在人工智能心理學頭頂。

相關性的幽靈

理解可能是一種錯覺

在人工智能心理學領網域，我們看到了對相關性地位的雙重态度。在解釋人類的理解時，我們傾向于忽視相關性的作用，認為自己不只是簡單的條件反射機器。我們通過自我覺察，相信自己能夠構建出對物理世界和社會世界的抽象模型，認為這些模型基于事物之間的深層聯系，而不僅是條件性的信号與結果關聯。這種感覺讓我們堅信自己擁有自主性和理解能力。

但當我們轉向人工智能，尤其是像GPT這樣的模型時，态度就變了。我們接受了相關性在這裏的統治地位。我們大大方方地承認就算是處理信息的能力接近人類的模型，它們的基礎架構本質上仍然是處理和展現相關性的機制，而不是真正意義上的因果關系。

LLM的零樣本能力來自于原始數據到表征數據的相關性連接，以及作為表征數據内部相關性連接的推理規則和推理方法。當這些連接達到一定的密度和連通性時，LLM似乎展現出了推理的能力。但這種能力更多是因為它們處理大量相關性連接時所表現出的復雜性，而不是因為它們真正"理解"了處理的内容。例如，早期的小型語言模型在處理相關性連接時密度較低，所以效果較差，而像GPT-3.5這樣的大型模型則在相關性連接上實現了更高的密度和全局性聯通，這使得它們似乎具備了邏輯推理和長程對話的能力13。

約翰·塞爾的"中文屋"思想實驗就很好地説明了這一點。他設想了一個不懂中文的英語母語者被關在一個裝滿中文符号和指令書的房間裏。當房間外的人通過一個小視窗向房間内傳遞寫有中文符号的紙條時，這位英語母語者使用指令書找到适當的回應方式，用中文符号寫下來，然後通過視窗傳遞回去。這是一種典型的利用相關性原理的作業方式（特别是這種指令書是LLM的時候）。對于外界觀察者來説，這個房間似乎能夠用中文進行合理的對話，盡管房間内的人實際上并不理解中文。

塞爾的實驗挑戰了我們對"真正理解"語言的認識，引發了機器是能"真正理解"還是僅僅是"模拟理解"的辯論。它提出了一個基本問題：智能行為是否等同于真正的理解和意識。但真正的回旋镖是，對于人類自己而言，我們從沒有反思過自己理解的這種感覺有沒有可能也是一種錯覺。尤其是當我們的所謂"理解"被解釋為相關性密度達到一定程度的結果時；或者當"自由意志"被還原成小模型監督大模型以及自己給自己下達prompt指令的時候，我們對自己能力的确信就變得無比動搖。

我們想當然的覺得自己的感覺具有内在的确定性。但如果LLM繼續發展，達到與人類行為表現無異的程度，那麼我們對于理解的感覺也可能只是額外的附加物，就像LLM一樣。更恐怖的是，受到拟人化的驅使，我們也會合理的将LLM認作是有意識的存在。然而，正如哲學僵屍的辯論所指出的，盡管我們知道自己擁有内在的心理活動，我們卻無法确定其他人或實體是否也擁有相似的内心世界，或者他們僅僅是在機械地做出反應。這迫使我們必須重新審視我們對于"理解"和"自由意志"的理解：

這些概念是否真的存在，還是僅僅是我們錯覺的產物？

作為真理内核的相關性

LLM所展示的模式和規律性已經遠遠超越了簡單的語法結構。其中，LLM的"零樣本能力"最為引人注目，即它們在沒有特定訓練數據的情況下也能解決新的問題。這種能力表明，這些模型的推理能力源于原始數據到表征數據的相關性連接，以及作為二次相關性連接的内部的推理規則和方法。

這不僅揭示了LLM的高級功能，也暗示了人類的高級認知能力可能同樣基于語言本身，而非語言之外的因素。過去我們認為，邏輯和原理都是人通過先驗知識賦予的，這似乎不證自明的。但是在LLM中，這些邏輯與真理的表達，則可以通過适當的訓練來構造而成。這種觀點挑戰了我們對人類心理過程的傳統理解，提示我們可能過分誇大了自身的推理能力，實際上我們的因果推導更多依賴于復雜的相關性推導機制，而不是我們所認為的逐步構建的原理與知識體系。

進化心理學中關于樸素物理學的觀點也進一步支持了這種構造論。研究人員發現即使是只有18個月大的嬰兒，也已經在大腦中儲存了關于物理世界的基本理解*。但這種理解并不是建立在復雜的體系結構之上，而更像是我們腦海中的一套相關性連接——一種簡單的樸素物理學。

18個月大的嬰兒已經掌握了下述物理規律：①距離無作用（no action at a distance），指兩個不相互接觸的物體彼此的運動不受影響；②實體性（solidity），指兩個物體不能同時占據同一空間；③連續路線運動，指物體可以沿着連續曲線不停地運動；④客體永存，指即使個體看不見某物體，該物體仍然存在；⑤一致性，指物體的運動是前後一致的、連貫的；⑥慣性，指在物體的運動過程中，當外力停止作用後，物體還會持續運動一段時間；⑦重力，指地心引力。

例如，我們通常會直覺地認為一個跑步中的人流出的汗水會直接垂直落地，而不是以抛物線軌迹落地。古希臘哲學家亞裏士多德也曾錯誤地認為輕物體會比重物體落地慢，因為人類的直覺往往根據人類先驗的相關性認知——物體重量——來估計其下落速度。這些直覺反映了我們大腦中關于重力作用的相關性理解，而不是精确的物理定律。

與此相似的是，LLM的構建也是基于相關性。它們通過人工設計的算法來建立數據之間的關聯。這種構建過程與人類的樸素物理概念有着相似之處，都是通過觀察和連接相關性來形成理解，而不是基于深刻的系統性知識。但與人類不同，LLM缺乏持續的生存壓力來形成這些相關性。它們的學習更多是基于人為設定的算法反饋，而非自然選擇。

因此，在探讨邏輯、公理和真理時，我們需要認識到這些概念可能只存在于語言層面上，而不是客觀存在的絕對真理。我們的語言系統和直覺系統可能并沒有演化出足夠能反映因果關系的能力。因此，盡管現實世界中因果關系确實存在，但我們的語言和直覺設定裏面缺乏因果的元素，可能并不完全能夠準确地反映這一點。這意味着，我們長期以來依賴的歸納和演繹方法，實際上可能不過是復雜的相關性連接，而非真正的基本原理。

隐性知識的幽靈

真實世界的投影

LLM的知識主要來源于它們訓練時使用的文本數據。這意味着LLM在處理那些可以從文本中明确提取或推斷的知識方面較為擅長。然而，隐性知識（Tacit knowledge）——那些深藏在文字背後，不易直接從文字表述中提煉的信息——對于LLM來説仍是一個挑戰。這些知識的獲取不像抄寫或者背誦那樣直截了當，因為它們通常是分散的，而且不總是明确地表達在語言和訓練文本之中。但人類卻能從語境、比喻、習語和文化背景中推斷出來7,14,15。

以理解幽默為例，幽默不僅僅是笑話或文字遊戲，它是一種文化和語境深層次的理解，需要跨越字面意義，挖掘隐含的雙關語和文化指涉。因此，研究人員對LLM在理解笑話和幽默的表現尤為關注。研究者們設計了一系列實驗，其中包括挑選或創作一系列笑話和幽默圖片，并将它們輸入到LLM中，要求模型解釋為什麼這些内容是有趣的，以此來評估LLM是否正确理解了幽默的核心要素，以及它是否能創造出新的、有趣的内容。

但LLM面臨的挑戰不止于此。如果我們要證明LLM不僅僅學習語言，而是學習語言背後的真實世界的投影，我們必須理解它們如何通過語言接觸到更深層次的心理表征。對于人類而言，狗叫聲等非語言線索能激活特定狗的心理表征，而聽到"狗"這個詞時，則會激活與狗相關的更抽象或原型的表征16。同理，研究者希望知道LLM是否也可能學會了這種語言标籤背後的原型理解，即對隐性知識的把握。因此，當前的研究者正基于語言與心理緊密聯系的理論假設，來評估LLM掌握隐性知識的可能性。

我們可以借用禅宗的一個比喻來更好地理解這一點。六祖慧能在《指月錄》中説，真理就如同是月亮，而佛經那些文本就如同是指向月亮的手指：你可以沿着手指的方向找到月亮，但最終你追求的是月亮本身，而不是指向它的手指。同樣，LLM訓練用的語料庫就像是指向更深層次知識的手指，研究者的目标是了解LLM是否能夠把握那些更為深遠的含義，即"月亮"。

對于人類來説，理解和應對現實世界的任務涉及到他們心理表征與現實世界狀态之間的結構匹配。這種匹配的基礎被稱作"世界模型"，它幫助人類可靠地生成對特定情境的滿意答案。比如，我們直觀地知道在盒子上平衡球比在球上平衡盒子要容易得多。這種理解源于我們對物理世界的直觀和經驗性知識17。

有研究者使用基于世界模型的任務來評估LLM是否能夠掌握現實世界中各種元素和它們相互作用的隐性知識。這種世界模型任務包括了對物理對象三維形狀和屬性的理解，例如它們如何相互作用，以及這些相互作用如何影響它們的狀态和環境。這可以幫助測試AI能否理解現實世界的因果關系。通過模拟具有空間結構和可導航場景的任務，研究人員可以評估AI是否能夠有效地理解和導航復雜的空間環境。此外，世界模型還可以包括具有信念、願望和其他心理特征的智能體，以此測試AI是否能夠理解復雜的社會動态和人類行為17。

在Yildirim和Paul的研究中，他們探讨了LLM如何處理類似的任務。對于LLM來説，它們首先需要從自然語言中推斷出任務的結構。然後，根據這種結構，LLM通過調整内部的活動來準确預測詞序列中的下一個詞18。目前也有研究者通過閉式問題或評級量表來量化地評估LLM對特定問題或陳述的反應。并将這些反應與人類在相同情境下的反應進行比較。這種方法用來評估LLM對情感、信念、意圖等心理狀态的理解能力，被認為是對隐性知識理解的又一項重要測試。

這些研究希望表明，盡管LLM處理的詞匯所攜帶的關于現實世界的具體信息可能有限，但它們能夠通過文本學習來理解一個詞的意義，考慮其在整體語言網絡中的位置和作用，并能夠間接地與人類感知和行動中使用的心理表征對接，至少是近似地達到了類似于人類的世界模型能力或者現實世界的抽象表征。雖然這種理解可能不如人類直接經驗豐富和精确，但它在處理復雜任務時提供了一種有效的近似方法。

成為自己，還是成為人類

雷德利在電影《異形：契約》中呈現了兩種不同類型的人造人——大衞和沃特，大衞是按照高度模仿人類情感的原則設計的，而沃特則被剝奪了自由意識和獨特個性。電影情節中大衞所表現出的自戀秉性和叛亂行為，正是電影想要傳達的關于人工智能的擔憂：如果機器人太像人類，會發生什麼？

現在，我們的LLM的發展也正面臨着類似的兩條發展路線。在第一條路線中，研究者假設LLM可以成為獨立的實體，擁有單一的模式，就像人類一樣。這些模型能夠在多次測試中展現出穩定的反應，就好像它們擁有自己的"性格"一樣。在這個假設的基礎上，研究者開始讨論LLM的種族、性别、經濟或者其他偏見，并尋求減輕負面影響的方法。一些研究者采用人格問卷的方式來測量大型語言模型的人格特征、價值觀以及意識形态等湧現特質19–21。而未來的研究重點則可能是發展LLM的自我學習和自我改進能力，使其能夠更獨立地理解和生成語言，而不是僅僅依賴于人類輸入的數據。這可能意味着模型能夠發展出自己獨特的"理解"方式和回應方式，甚至可能包括一些有創造性或原創性的思考模式。

在第二條路線中，研究者認為LLM是由許多偏見組合而成的，只是将所有的偏見經過復雜的壓縮之後所呈現出來的是特定占優勢的偏見。這有點像人類心靈的復雜性：我們對同一個問題也有許許多多不同的想法和衝動。持有精神分析取向的咨詢師們則采取了占領導地位的主人格和附屬地位的副人格，或者是占據有強大能量的核心情結和只有微小能量的邊緣情結的説法。

Argyle等人的研究将LLM視作一面鏡子，其反映了不同人類亞群的思想、态度和環境之間的許多不同模式的聯系22。他們認為，即使是同一個語言模型，也會在不同人類群體共同的社會文化背景下產生偏向特定群體和觀點的輸出。這種輸出不是從LLM中單一的總體概率分布中選擇的，而是從許多分布的組合中選擇的。通過管理輸入條件，比如使用封閉式問卷，可以促使模型產生與不同人類亞群體的态度、意見和經歷相關的輸出。這表明，LLM并不僅僅是反映創建它們的文本語料庫中的人類偏見，而是揭示了這背後概念、想法和态度之間的潛在模式。

第二條路線很可能是對的，未來的研究方向則是提高LLM反映人類亞群不同行為分布的拟合程度。目标是使LLM更好地反映人類在思維、語言和情感處理上的多樣性。這包括模拟人類的情感反應、理解隐喻和幽默，甚至是模拟人類的道德和倫理判斷。這條研究路線的終極目标是讓模型能夠在接收到大量個體化細節信息的情況下，成為一個具有特定身份和個性特征的"個體"，使模型的每個響應與真實人類個體緊密相符。

價值對齊的困境

價值對齊本質上是對LLM的"雙重規訓"，人們希望LLM從骨子上來説是向善的和遵守特定國家法律法規的，但是又希望這種制約不會產生太高的"對齊税"，從而限制LLM的實際能力。這種規訓始終和LLM能力的湧現特征相衝突，也與隐知識的掌握邏輯相悖。

在第一條路線的指導下，研究者最終希望建立一種統一普适的、詳盡的、可執行的AI道德準則框架。這個框架試圖在三個層面進行價值對齊：普遍的道德倫理、特定的文化差異，以及意識形态。理想情況下，LLM能夠在這三個層次上都做到适應，既能理解和遵循人類的基本價值觀，又能體現不同文化的特色，同時還能很乖巧地不涉及意識形态的紅線。

但實現這一目标并非易事。以普遍性道德倫理為例，有部分研究者試圖通過引入官方語料庫，如《世界人類責任宣言》和《世界人權宣言》，來重塑LLM的底層邏輯。這些宣言涵蓋了如尊重人權、維護和平、促進發展、保障自由等全人類共同追求的價值。而這些共識性宣言為了追求"共識"而刻意模糊了一些關鍵術語。考慮到LLM并不僅僅是抓取詞語之間的表面聯系，而是通過分析和學習大量文本數據來理解語言的深層結構和含義，很難説通過精密的訓練就可以将LLM塑造成内在遵從人類基本價值觀的機器。

此外，LLM可能沒有内在和外在的層次結構，且無法像人類那樣通過演化心理學的框架綜合經驗片段，所以，LLM最終在表現時便可能只是一灘現象的混合體。再加之目前人類的道德價值觀本身就充滿不确定性和模糊性，整個價值對齊的過程就變得更加復雜和困難。

事實上，人類的行為并不總是符合其口頭上宣稱的價值觀。上至政治鬥争，下至日常生活，這種現象都表現得尤為明顯。歷史中，雙方都打着維護人類基本價值觀的口号大打出手的情況屢見不鮮。因此，當我們試圖将LLM的價值觀與人類價值觀對齊時，存在一個根本的問題：我們究竟應該向何種價值觀對齊？是那些高尚但可能并不常被實踐的理想，還是那些在現實生活中更為普遍的、可能并不完美的行為模式？

另外，在為LLM标注數據時，如果我們賦予某些價值觀更高的權重，可能會與LLM從其他文本中學到的内容相衝突。這可能導致LLM學會了一種"説一套做一套"的技能，即在理論上支持某種價值觀，但在實際應用中卻表現出與之相反的行為。或者，LLM可能會識别出一些宣傳性語料背後的專制和欺騙。特别是考慮到意識形态中政治生态的復雜性和政治立場的不斷變化。重新訓練大模型的隐性知識來校對當前的路線本就需要花費大量的時間和精力，但更可能的情況是，這邊還沒對齊完，路線又變了，又有新説法了。

因此，我們面臨着一個悲觀但現實的預測：為了不在LLM的軍備競賽中落敗，人們可能會選擇效率和能力為先的發展路徑。這意味着，在訓練LLM時，人們可能會減少對訓練樣本和算法的嚴格管控，轉而只在結果上進行關鍵詞和語義的檢測和過濾。這種做法有點像"掩耳盜鈴"——無論LLM原本展示了什麼，只要最終給用户的是符合标準的内容就好。這樣做的風險是，盡管LLM可能内含不那麼道德的回答，但這些回答卻能被擁有更高權限的管理員訪問。

從策略上來説，模塊化組裝的策略可能會成為主流。這種方法通過訓練符合不同國家、文化和意識形态的小型語言模型來監督未閹割的大模型，從而以更低成本和更短時間實現文本生成。從局部來看，這種做法允許小語言模型代替承受更加嚴格的道德制約與嚴苛的法律規範，而大語言模型也避免了"對齊税"的影響。這樣，從整體上看，文本生成能同時滿足能力和意識形态的要求。

而在第二個路線的指導下，研究者可能最終會放棄将LLM嚴格對齊于普遍的道德倫理，而是将LLM視作不同偏見或者意見的集合。這從根本上承認了各種分布模式的平等存在，而不是将LLM只作為單一模态從底層重塑。這相當于對不同文化間不可調節的張力和人類内在無條件求生存的動機進行了妥協。

通過訓練LLM理解不同的人類亞群的文本，可以保留文化的多樣性，也能夠讓LLM掌握不同人類亞群之間基本不相交的行為分布概率。此外，重疊的行為分布模式則可能在單一模态的行為評估中占據優勢。這也是為什麼上海交通大學的研究者可以使用OPO（On-the-fly Preference Optimization，實時偏好優化）來切換LLM的不同分布類型，從而實現無需訓練即可實現實時動态價值對齊，進而避免了收集數據重新訓練模型的高昂成本與超長的時間23。

LLM是不同偏好（分布類型）的集合這一假設可能意味着，更有利于跨文化生存和繁衍的行為模式可能更容易得到表達，而不一定是理想化的道德價值觀。研究者不尋求，也做不到将一個固定的道德框架嵌入到模型中，他們更需要讓模型能夠學習并理解各種各樣的道德觀念，并能在不同的情境中靈活應用，以适應豐富多樣的道德準則和應用場景。因此，未來理想的場景可能是，當用户面臨道德決策時，LLM能夠提供基于不同文化背景和政治立場的多元回答，讓用户自行進行道德判斷和選擇。在這個過程中，人類應該承擔甄别和選擇的責任。這其實意味着真正需要規訓和引導的，從始至終都應該是人類自己。

結語

總體而言，本文綜述了研究者們在人工智能心理學領網域的探索努力，這些努力正引發着對傳統心理學觀點的深刻反思。當前的心理學研究者仍然在采用改良後的行為主義理論和人文社會科學的大量研究方法來理解和解釋知識，但這些嘗試往往僅停留在相關性分析或中層理論的層面。我們曾經夢想着徹底解讀這個世界，但LLM的出現似乎揭示了一個更加復雜的真相。正如古希臘哲學家柏拉圖的暗示，我們對這個世界的了解可能僅僅是洞穴中的影子，我們對它知之甚少。

在認識論和本體論上，LLM引發的這場新革命還遠未被充分評估。它們是否真正具備隐性知識或心理認知的能力，這個問題仍然懸而未決。許多LLM所展現的卓越能力可能僅僅是基于它們訓練所用的文本數據，而這些數據可能已經在某個網絡論壇中被充分讨論和表述過了。

盡管如此，LLM在某些特定領網域已顯示出它的實用價值，例如在預測市場趨勢和公共意見方面。通過分析和模拟大規模的人類語言數據，LLM可以作為有力的工具。在受控的實驗條件下，它們甚至可以模拟人類的認知過程，特别是在涉及語言理解和信息處理的研究中。這些研究避免了一些激烈的學術争論，同時巧妙地吸收了人工智能心理學的研究成果，預示着未來可能的實際應用價值。

參考文獻：

1. Stevens, S. S. (1935). The operational definition of psychological concepts. Psychological Review, 42(6), 517–527. https://doi.org/10.1037/h0056973

2. Moore, J. (1996). On the relation between behaviorism and cognitive psychology. Journal of Mind and Behavior, 17, 345–368.

3. Zou, A., Phan, L., Chen, S., Campbell, J., Guo, P., Ren, R., Pan, A., Yin, X., Mazeika, M., Dombrowski, A.-K., Goel, S., Li, N., Byun, M. J., Wang, Z., Mallen, A., Basart, S., Koyejo, S., Song, D., Fredrikson, M., … Hendrycks, D. (2023). Representation Engineering: A Top-Down Approach to AI Transparency (arXiv:2310.01405). arXiv. https://doi.org/10.48550/arXiv.2310.01405

4. Bricken, T., Templeton, A., Batson, J., Chen, B., Jermyn, A., Conerly, T., Turner, N., Anil, C., Denison, C., & Askell, A. (2023). Towards monosemanticity: Decomposing language models with dictionary learning. Transformer Circuits Thread, 2.

5. Chen, Y., Liu, T. X., Shan, Y., & Zhong, S. (2023). The emergence of economic rationality of GPT. Proceedings of the National Academy of Sciences, 120(51), e2316205120. https://doi.org/10.1073/pnas.2316205120

6. Horton, J. J. (2023). Large Language Models as Simulated Economic Agents: What Can We Learn from Homo Silicus? (arXiv:2301.07543). arXiv. https://doi.org/10.48550/arXiv.2301.07543

7. Aher, G., Arriaga, R. I., & Kalai, A. T. (2023). Using Large Language Models to Simulate Multiple Humans and Replicate Human Subject Studies (arXiv:2208.10264). arXiv. https://doi.org/10.48550/arXiv.2208.10264

8. Bubeck, S., Chandrasekaran, V., Eldan, R., Gehrke, J., Horvitz, E., Kamar, E., Lee, P., Lee, Y. T., Li, Y., Lundberg, S., Nori, H., Palangi, H., Ribeiro, M. T., & Zhang, Y. (2023). Sparks of Artificial General Intelligence: Early experiments with GPT-4 (arXiv:2303.12712). arXiv. https://doi.org/10.48550/arXiv.2303.12712

9. Hagendorff, T. (2023). Machine Psychology: Investigating Emergent Capabilities and Behavior in Large Language Models Using Psychological Methods (arXiv:2303.13988). arXiv. https://doi.org/10.48550/arXiv.2303.13988

10. Santurkar, S., Durmus, E., Ladhak, F., Lee, C., Liang, P., & Hashimoto, T. (n.d.). Whose Opinions Do Language Models Reflect?

11. Dennett, D. C. (2006). Sweet Dreams: Philosophical Obstacles to a Science of Consciousness. Bradford Books.

12. McClelland, J. L., Hill, F., Rudolph, M., Baldridge, J., & Schütze, H. (2020). Placing language in an integrated understanding system: Next steps toward human-level performance in neural language models. Proceedings of the National Academy of Sciences, 117(42), 25966–25974. https://doi.org/10.1073/pnas.1910416117

13. Chaos. (2023). Zhihu. Retrieved from https://www.zhihu.com/question/593496742/answer/2966587547

14. Binz, M., & Schulz, E. (2023). Using cognitive psychology to understand GPT-3. Proceedings of the National Academy of Sciences, 120(6), e2218523120. https://doi.org/10.1073/pnas.2218523120

15. Argyle, L. P., Busby, E. C., Fulda, N., Gubler, J., Rytting, C., & Wingate, D. (2022). Out of One, Many: Using Language Models to Simulate Human Samples. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 819–862. https://doi.org/10.18653/v1/2022.acl-long.60

16. Edmiston, P., & Lupyan, G. (2015). What makes words special? Words as unmotivated cues. Cognition, 143, 93–100. https://doi.org/10.1016/j.cognition.2015.06.008

17. Yildirim, I., & Paul, L. A. (2023). From task structures to world models: What do LLMs know? https://doi.org/10.48550/ARXIV.2310.04276

18. Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners. https://www.semanticscholar.org/paper/Language-Models-are-Unsupervised-Multitask-Learners-Radford-Wu/9405cc0d6169988371b2755e573cc28650d14dfe

19. Miotto, M., Rossberg, N., & Kleinberg, B. (2022). Who is GPT-3? An Exploration of Personality, Values and Demographics (arXiv:2209.14338). arXiv. https://doi.org/10.48550/arXiv.2209.14338

20. Shihadeh, J., Ackerman, M., Troske, A., Lawson, N., & Gonzalez, E. (2022). Brilliance Bias in GPT-3. 2022 IEEE Global Humanitarian Technology Conference (GHTC), 62–69. https://doi.org/10.1109/GHTC55712.2022.9910995

21. Park, P. S., Schoenegger, P., & Zhu, C. (2023). Diminished Diversity-of-Thought in a Standard Large Language Model (arXiv:2302.07267). arXiv. https://doi.org/10.48550/arXiv.2302.07267

22. Argyle, L. P., Busby, E. C., Fulda, N., Gubler, J., Rytting, C., & Wingate, D. (2022). Out of One, Many: Using Language Models to Simulate Human Samples. Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 819–862. https://doi.org/10.18653/v1/2022.acl-long.60

23. Xu, C., Chern, S., Chern, E., Zhang, G., Wang, Z., Liu, R., Li, J., Fu, J., & Liu, P. (2023, December 26). Align on the Fly: Adapting Chatbot Behavior to Established Norms. arXiv.Org. https://arxiv.org/abs/2312.15907v1