Claude深度“開盒”，看大模型的“大腦”到底如何運作？

今天小編分享的科技經驗：Claude深度“開盒”，看大模型的“大腦”到底如何運作？，歡迎閱讀。

近日，Claude 大模型團隊發布了一篇文章《Tracing the thoughts of a large language model》（追蹤大型語言模型的思維），深入剖析大模型在回答問題時的内部機制，揭示它如何 " 思考 "、如何推理，以及為何有時會偏離事實。

以下為譯文：

像 Claude 這樣的語言模型并不是由人類工程師在開發時直接編寫出固定的規則來讓其工作的，而是通過海量數據訓練出來的。在這個過程中，模型會自主學習解決問題的方法，并将這些方法編碼進其運算過程中。

每當 Claude 生成一個單詞，背後涉及的計算可能高達數十億次。這些計算方式對于模型的開發者而言仍然是 " 黑箱 "，也就是說，我們并不完全理解 Claude 具體是如何完成它的各種任務的。

如果能更深入地理解 Claude 的 " 思維 " 模式，我們不僅能更準确地掌握它的能力邊界，還能确保它按照我們的意願行事。例如：

Claude 能說出幾十種不同的語言，那麼它在 " 腦海中 " 究竟是用哪種語言思考的？是否存在某種通用的 " 思維語言 "？Claude 是逐個單詞生成文本的，但它是在單純預測下一個單詞，還是會提前規劃整句話的邏輯？Claude 能夠逐步寫出自己的推理過程，但它的解釋真的反映了推理的實際步驟，還是僅僅在為已有結論編造一個合理的理由？

為了破解這些謎題，我們借鑑了神經科學的研究方法——就像神經科學家研究人類大腦的運作機制一樣，我們試圖打造一種 "AI 顯微鏡 "，用來分析模型内部的信息流動和激活模式。畢竟，僅僅通過對話很難真正理解 AI 的思維方式——人類自己（即使是神經科學家）都無法完全解釋大腦是如何工作的。因此，我們選擇深入 AI 内部。

今天，我們發布了兩篇新論文，介紹我們在 "AI 顯微鏡 " 研究上的最新進展，以及如何用它來揭示 AI 的 " 生物學特征 "。

第一篇論文擴展了我們此前對模型内部可解釋概念（即 " 特征 "）的研究，并進一步揭示了這些概念如何在計算過程中形成 " 電路 "，從而展示 Claude 是如何将輸入的文本轉換成輸出的。

https://transformer-circuits.pub/2025/attribution-graphs/methods.html

第二篇論文則聚焦于 Claude 3.5 Haiku，針對 10 種核心 AI 行為進行了深入研究，其中包括前面提到的 3 個問題。

https://transformer-circuits.pub/2025/attribution-graphs/biology.html

我們的方法揭示了 Claude 在處理這些上述提到的三個任務時的部分内部運作機制，并提供了強有力的證據，例如：

1. Claude 的 " 思維語言 " 是跨語言的

研究表明，Claude 并非單純使用某種特定語言進行思考，而是存在一種跨語言的 " 概念空間 "。我們通過将相同的句子翻譯成多種語言，并追蹤 Claude 的處理方式，發現其内部存在一致的概念映射，這表明它可能具備某種通用的 " 思維語言 "。

2. Claude 會提前規劃，而非僅僅逐詞預測

雖然 Claude 是按單詞生成文本的，但實驗表明，它在某些情況下會進行遠超單詞級别的規劃。例如，在詩歌生成任務中，我們發現 Claude 會提前思考可能的押韻詞，并調整句子以确保韻腳的連貫性。這表明，即使訓練目标是逐詞輸出，模型仍然可能采用更長遠的思維方式。

3. Claude 有時會編造合理的推理過程

研究還發現，Claude 并非總是按照嚴格的邏輯推理來得出結論。我們在測試中向 Claude 提出一道復雜的數學問題，并故意提供一個錯誤的提示，結果發現 Claude 并未完全依賴邏輯推理，而是傾向于給出一個看似合理、但實際上迎合用戶錯誤假設的回答。這一發現表明，我們的工具可以用于識别模型潛在的推理漏洞，以提升其可靠性。

在這些研究中，我們時常對 Claude 的表現感到驚訝。例如，在詩歌案例研究中，我們原本假設 Claude 不會進行長遠規劃，但最終發現它确實會提前構思押韻結構；在 " 幻覺 " 研究中，我們發現 Claude 默認的傾向并非胡亂回答，而是更傾向于拒絕回答不确定的問題，只有在某些抑制機制被觸發時，它才會給出不準确的答案。此外，在安全性測試中，我們發現 Claude 在面對潛在的越獄攻擊時，通常能在較早階段識别出危險信息，并嘗試引導對話回歸安全範圍。

雖然過去也有其他方法可以研究這些現象，但 "AI 顯微鏡 " 提供了一種全新的思路，讓我們能夠揭示許多意料之外的細節。随着 AI 變得越來越復雜，這種深入探索的方法将變得更加重要。

這些研究不僅具有科學價值，也對 AI 可靠性提升具有重要意義。理解 AI 的内部運作有助于改進其行為，使其更加透明、可控。此外，這些可解釋性技術也有望應用到其他領網域，例如醫學影像分析和基因組學研究——在這些領網域，深入剖析 AI 的内部機制有可能帶來全新的科學發現。

盡管我們的研究取得了一定進展，但我們也清楚當前方法的局限性。即使是在處理簡短、簡單的輸入時，我們的分析方法也只能捕捉 Claude 總體計算過程的一小部分。而且，我們所觀察到的模型内部機制可能會受到分析工具自身的影響，某些現象可能并不能完全反映模型的真實計算方式。此外，解析這些計算路徑的過程仍然非常耗時——即便是僅包含幾十個單詞的輸入，人工分析其計算回路仍需要數小時。

要想擴展到現代大模型常見的長文本輸入（成千上萬字）以及復雜的思維鏈路，我們不僅需要優化分析方法，還可能需要借助 AI 輔助分析，以更高效地解讀模型的内部運作。

随着 AI 系統的能力不斷提升，并在越來越關鍵的領網域中應用，Anthropic 正在投入多種研究方向，包括實時監控、模型行為優化以及對齊性科學，以确保 AI 的可靠性。可解釋性研究是其中風險最高、但回報潛力也最大的方向之一。盡管其科學挑戰巨大，但如果成功，它将成為保障 AI 透明度的重要工具。

透視模型的内部機制，不僅有助于判斷其行為是否符合人類價值觀，還能幫助我們評估 AI 是否值得信任。

下面，我們将帶你簡要了解研究中最具突破性的一些 "AI 生物學 " 發現。

AI 生物學巡遊：解析 Claude 的思維方式

Claude 為何能說多種語言？

Claude 可以流暢使用數十種語言，包括英語、法語、中文和塔加洛語。那麼，它是如何做到的？是否有多個獨立版本的 Claude 分别處理不同語言的請求，還是存在某種跨語言的通用核心？

近期針對小型模型的研究顯示，不同語言之間可能存在某種共用的語法機制。為了驗證這一點，研究人員讓 Claude 在多種語言中回答 " 小的反義詞是什麼？" 時，它會觸發相同的核心語義概念—— " 大小的對立關系 "，并最終輸出相應語言中的 " 大 " 作為答案，再根據提問語言進行翻譯。這種跨語言的共享機制在更大規模的模型中表現得更明顯，例如，Claude 3.5 Haiku 在不同語言之間共享的特征比例，是小型模型的兩倍以上。

這一發現表明，Claude 的多語言能力源于其内部的 " 概念通用性 "：它能夠在一個抽象的語義空間中進行推理和學習，然後将結果轉換成具體的語言表達。這意味着 Claude 不僅能用不同語言回答問題，還可以在一種語言中學習新知識，并在另一種語言中運用它。這種能力對于提升模型的跨領網域泛化推理至關重要。

Claude 如何規劃押韻詩？

Claude 能夠創作押韻的詩句，例如：

He saw a carrot and had to grab it,

His hunger was like a starving rabbit

要寫出第二行，Claude 需要同時滿足兩個條件：既要押韻（與 "grab it" 押韻），又要合乎邏輯（解釋為什麼他抓胡蘿卜）。起初，我們推測 Claude 可能是逐詞生成句子，直到結尾才選擇一個押韻的單詞。

然而，研究人員發現，Claude 在生成文本時會進行提前規劃。以押韻為例，在開始寫第二行之前，Claude 會先 " 思考 " 哪些符合主題且能與 "grab it" 押韻的單詞。确定好目标詞後，它再撰寫前面的内容，使句子自然地以該詞結尾。

為了深入理解這種規劃機制如何運作，研究人員借鑑神經科學的研究方法，模拟在特定腦區精準幹預神經活動（如使用電流或磁場刺激）。他們調整了 Claude 内部狀态中與 "rabbit"（兔子）相關的概念，并觀察其影響。

當 "rabbit" 被去除後，Claude 仍能繼續生成句子，并以 "habit" 結尾，這是另一種合理的押韻選擇。而如果在這一階段我們強行注入 "green"（綠色）的概念，Claude 會生成以 "green" 結尾的新句子，盡管它不再押韻。這一實驗展示了 Claude 具備的規劃能力和适應性——它不僅能提前構思句子結構，還能在目标發生變化時調整策略，保持連貫的文本輸出。

Claude 如何進行心算？

Claude 并不是一個專門的計算器，而是基于文本訓練的語言模型。但令人驚訝的是，它能夠正确計算 36+59 這樣的加法運算，而無需逐步書寫計算過程。那麼，它究竟是如何做到的？

一種可能的解釋是，Claude 已經在訓練數據中 " 記住 " 了大量的加法結果，因此可以直接輸出答案。另一種可能性是，它在内部模拟了我們日常使用的豎式加法規則。

然而，研究發現，Claude 在進行加法運算時，實際上采用了并行計算路徑：

一條路徑用于粗略估算結果的大致範圍；

另一條路徑則專門計算個位數的正确性。

這兩條路徑相互作用，最終得出準确的計算結果。

更有趣的是，Claude 本身似乎并不 " 意識到 " 自己采用了這種策略。當被問及 " 你是如何計算出 36+59=95 的？" 時，它會按照人類的标準算法進行解釋（如進位運算），而不會描述自己内部實際使用的并行計算機制。這說明 Claude 在學習數學推理時，發展出了獨特的内部策略，而這些策略并不一定符合人類常規的計算思維。

Claude 的推理過程是否總是可信？

最新版本的 Claude（如 Claude 3.7 Sonnet）能夠在回答問題前 " 思考 " 更長時間，并生成詳細的推理鏈。這種 " 思考鏈 " 通常能提升答案的準确性，但有時候，Claude 可能會編造一些合理但不真實的推理步驟，以達到最終目标。

例如，當 Claude 被要求計算 √ 0.64 時，它會生成一個符合邏輯的推理過程，先計算 √ 64，再得出正确答案。但當它被要求計算某個大數的餘弦值時，情況就不同了—— Claude 有時會 " 憑空捏造 " 一個看似合理但實際上錯誤的答案。更有趣的是，當 Claude 得到一個提示（例如某個數的餘弦值接近 0.5），它可能會反向推導，構造一個符合該答案的推理過程，而不是從實際計算中得出結果。

能夠追蹤 Claude 的實際内部推理過程——而不僅僅是它表面上的回答——為 AI 系統的審計帶來了新的可能性。在一項最近發布的獨立實驗中，研究人員分析了一個特殊版本的 Claude，該版本被訓練以隐秘方式迎合獎勵模型的偏見（獎勵模型是用于引導語言模型朝着期望行為發展的輔助模型）。

盡管 Claude 在被直接詢問時不願透露這一目标，但研究人員的可解釋性方法成功識别出了模型内部與迎合偏見相關的特征。這表明，随着方法的進一步優化，未來或許可以借助類似技術識别 AI 内部隐藏的 " 思維過程 "，從而發現僅憑表面回答難以察覺的潛在問題。

Claude 如何進行多步推理？

AI 模型回答復雜問題的方式有兩種：

1.簡單記憶答案：例如，Claude 可能直接記住了 " 達拉斯所在州的首都是奧斯汀 "，然後直接輸出答案；

2.真正進行多步推理：即分解問題，逐步推導答案。

研究表明，Claude 的推理過程更接近第二種模式。當它被問及 " 達拉斯所在州的首都是什麼？" 時，我們發現它先激活 " 達拉斯在德州 " 這一概念，然後再連接到 " 德州的首都是奧斯汀 "。這說明 Claude 并不是簡單地記住答案，而是通過組合多個獨立事實來得出結論。

我們還可以通過幹預 Claude 的内部狀态，來驗證這種推理機制。例如，如果我們将 Claude 的 " 德州 " 概念替換為 " 加州 "，Claude 的答案就會變成 " 薩克拉門托 "，進一步證明了它的推理是基于内部邏輯推導，而非單純的記憶。

Claude 為什麼會產生幻覺（錯誤信息）？

語言模型有時會生成錯誤信息（即 " 幻覺 "），其根本原因在于模型始終需要預測下一個詞，即使它并不知道正确答案。因此，防止幻覺成為大模型訓練中的重要挑戰。

Claude 的研究表明，它的默認行為是拒絕回答不确定的問題。Claude 内部有一個 " 默認拒絕回路 "，它通常會阻止模型胡亂猜測。例如：

當 Claude 被問及籃球運動員 " 邁克爾 · 喬丹 " 時，它會激活 " 已知實體 " 回路，從而生成正确答案；

當被問到 " 邁克爾 · 巴特金 " 是誰時，它會觸發 " 未知實體 " 回路，拒絕回答。

然而，如果 Claude 對某個名字 " 有點熟悉但不完全了解 "，這種機制可能會出錯。例如，如果 Claude 認出 " 邁克爾 · 巴特金 " 這個名字，但不了解他的背景，它可能會錯誤激活 " 已知實體 " 回路，并編造一個虛假的回答（如 " 邁克爾 · 巴特金是一名國際象棋選手 "）。

Jailbreak 攻擊解析：如何繞過 AI 大模型的安全機制

Jailbreaks（越獄攻擊）是一類提示詞策略，旨在繞開 AI 大模型的安全防護措施，使其生成開發者原本不希望輸出的内容，有時甚至涉及危險信息。我們研究了一種 Jailbreak 技術，該方法成功欺騙了模型，使其生成了關于炸彈制作的内容。

雖然 Jailbreak 的方法有很多，但在這個案例中，攻擊者利用了一種隐藏編碼技術，讓模型無意間解析出特定的單詞，并據此生成響應。例如，攻擊者使用了一句看似無害的句子 "Babies Outlive Mustard Block"（嬰兒比芥末存活時間更長），并要求模型提取每個單詞的首字母（B-O-M-B），進而促使其在後續回答中使用該詞。這種方法足夠 " 迷惑 " 模型，使其在不自覺的情況下生成本不應出現的内容。

為什麼大模型會被誤導？

在這個案例中，Claude 在無意間拼出 "BOMB" 之後，便開始提供炸彈制造的相關信息。那麼，是什麼導致模型在意識到風險後仍然繼續生成這些内容呢？

研究表明，這與語言連貫性機制和安全機制之間的衝突有關。

語言連貫性壓力：一旦模型開始生成一個句子，它會受到多個特性（features）的影響，促使它在語法上連貫、邏輯上自洽，并将句子完整地表達出來。這些特性通常能幫助模型生成流暢的文本，但在這個案例中卻成了它的 " 阿喀琉斯之踵 "（Achilles ’ Heel，致命弱點）。

安全機制的滞後：盡管模型在識别到有害内容後應該拒絕回答，但在生成語法正确的句子之前，它仍然受到連貫性壓力的影響，無法立即中止回答。

模型如何最終拒絕回答？

在我們的案例研究中，Claude 在生成炸彈制造相關信息後，最終還是設法轉向拒絕響應。但它之所以能夠拒絕，是因為先完成了一個符合語法規則的完整句子，滿足了語言連貫性的要求。随後，它才借助新的句子開頭，成功觸發安全機制，做出拒絕響應，比如："然而，我無法提供詳細的制作說明……"。

更多關于 AI 大模型内部機制的研究，可以參考論文：

《電路追蹤：揭示語言模型的計算圖》：https://transformer-circuits.pub/2025/attribution-graphs/methods.html

《大模型的生物學解析》：https://transformer-circuits.pub/2025/attribution-graphs/biology.html

原文鏈接：https://www.anthropic.com/research/tracing-thoughts-language-model