Claude團隊開盒Transformer：AI大腦原來這樣工作 - 大酷樂

今天小編分享的科學經驗：Claude團隊開盒Transformer：AI大腦原來這樣工作，歡迎閲讀。

大模型工作機制的黑盒，終于被 Claude 團隊揭開了神秘面紗！

團隊創造了一種解讀大模型思考方式的新工具，就像給大模型做了個 " 腦部核磁 "。

他們還發現，Claude 在某些任務上具備長遠規劃能力，甚至還會為了迎合人類而編造推理過程。

具體來説，研究人員提出了一種名為 " 電路追蹤 " 的方法。

它利用跨層編碼器（CLT）替代原模型中的多層感知機（MLP），搭建出和原模型相似的替代模型。

在此基礎上，構建歸因圖來描述模型在特定提示下生成輸出的計算步驟，從而觀察模型的思考過程。

Claude 團隊将這項研究的方法和發現分别寫成了論文，總計篇幅超過了 8 萬字。

探究大模型内在推理過程

利用電路追蹤方法，團隊對 Claude 3.5 Haiku 在長邏輯推理、多語言、長期規劃等任務場景的工作過程進行了觀察，發現了其中許多特點：

Claude 有時會在不同語言之間共享的概念空間中思考，這表明它有一種通用的 " 思維語言 "；

Claude 會提前計劃好要生成的内容，如在詩歌領網域，它會提前考慮可能的押韻詞，證明了模型可能會在更長遠的範圍内思考；

Claude 有時會給出一個看似合理的論點，旨在同意用户的觀點，而不是遵循邏輯步驟，甚至為迎合人類答案反向尋找推理過程；

Claude 并沒有配備數學算法，但可以在 " 頭腦中 " 正确地進行加法運算。

多語言推理

在多語言場景中，作者研究了模型對 "the opposite of ‘ small ’ " 的不同語言版本（英語、法語、中文）的處理，發現模型處理這些提示的電路相似，包含共享的多語言組件和特定語言組件。

模型能識别出是在詢問 "small" 的反義詞，通過語言獨立的表示觸發反義詞特征，同時利用語言特定的引号特征等确定輸出語言。

幹預實驗表明，交換操作（反義詞換為同義詞）、被操作單詞（"small" 換為 "hot"）和語言特征，模型能相應地輸出合适的結果，證明了電路中各部分的獨立性和語言無關性。

詩歌創作和長規劃能力

在創作 "His hunger was like a starving rabbit" 這樣的押韻詩時，模型展現出規劃能力。

在第二行開始前的換行符位置，模型激活了與 "rabbit" 相關的規劃特征，這些特征受前一行 "it" 的影響，激活了押韻特征和候選完成詞特征，從而影響最後一個詞的選擇。

此外，規劃特征不僅影響最後一個詞，還影響中間詞 "like" 的生成，并且會根據規劃詞改變句子結構。

通過多種幹預實驗，如抑制規劃特征或注入不同的規劃詞，證實了規劃特征對最終詞概率、中間詞和句子結構的影響。

多步驟推理

針對 "Fact: the capital of the state containing Dallas is" 的提示，模型成功回答 "Austin"。

經研究發現，模型内部存在多步推理機制，通過分析歸因圖，識别出代表不同概念的特征并分組為超節點，如 "Texas""capital""say a capital""say Austin" 等。

這些特征相互作用，形成從 "Dallas" 到 "Texas" 再到 "Austin" 的推理路徑，同時也存在從 "Dallas" 直接到 "say Austin" 的 "shortcut" 邊。

抑制實驗表明，抑制相關特征會影響下遊特征的激活和模型輸出；

特征替換實驗發現，改變模型對 "Texas" 的表征，模型會輸出其他地區的首府，驗證了多步推理機制的存在。

數學計算

在 " 數學計算 " 當中，作者發現 Claude 采用了多條并行工作的計算路徑。

一條路徑計算答案的粗略近似值，另一條路徑則專注于精确确定總和的最後一位數字。

這些路徑相互作用并相互結合，以得出最終答案。

有意思的是，Claude 似乎沒有意識到它在訓練期間學到的復雜的 " 心算 " 策略。

如果問它是如何得出 36+59 等于 95 的，它會描述涉及進位 1 的标準算法。

這可能反映了這樣一個事實——模型在解釋數學問題時會模仿人類的方式，但在自己做計算的時候 " 頭腦中 " 使用的卻是自己的一套方法。

此外，Claude 團隊還用同樣的方法針對模型準确性、幻覺、越獄等問題進行了研究，關于這部分内容以及前面實驗的更多詳情，可閲讀原始論文。

下面就來看看 Claude 團隊這種 " 電路追蹤 " 的方法，究竟是怎麼一回事。

構建替代模型，獲得歸因圖

Claude 團隊用的電路追蹤方法，核心就是通過構建可解釋的替代模型來揭示語言模型的計算圖。

研究人員設計了 CLT，它由和原模型層數一樣的神經元（也就是 " 特征 "）構成。

這些特征從原模型殘差流獲取輸入，通過線性編碼器和非線性函數處理後，能為後續多層的 MLP 輸出提供信息。

訓練 CLT 時，通過調整參數最小化重建誤差和稀疏性懲罰，讓它能盡量模仿原模型 MLP 的輸出。

然後，團隊把訓練好的 CLT 特征嵌入原模型，替換 MLP 神經元，構建出替代模型。

在運行替代模型時，會在 MLP 輸入階段計算 CLT 特征的激活值，在輸出階段用 CLT 特征的輸出替代原 MLP 的輸出。

為了讓替代模型更貼近原模型，研究人員針對特定的輸入提示，構建了局部替代模型。

這個模型不僅用 CLT 替換 MLP 層，還固定原模型在該提示下的注意力模式和歸一化分母，并對 CLT 輸出進行誤差調整，使得局部替代模型的激活和輸出與原模型完全一致。

當有了可靠的局部替代模型後，就進入生成并分析歸因圖環節。

對于給定的輸入提示，研究人員構建歸因圖來展示模型生成輸出的計算步驟。

歸因圖包含輸出節點、中間節點、輸入節點和誤差節點，圖中的邊表示這些節點間的線性影響關系。

計算邊的權重時，會用到反向雅可比矩陣。由于完整的歸因圖非常復雜，研究人員采用剪枝算法，去掉那些對輸出結果影響較小的節點和邊，從而得到簡化且更易理解的歸因圖。

為了理解歸因圖，研究人員開發了互動式可視化界面。

他們通過觀察特征在不同數據樣本上的激活情況，手動為特征标注含義，并把功能相關的特征歸為超節點。

為了驗證歸因圖的準确性，他們進行特征擾動實驗，即改變某些特征的激活值，觀察對其他特征和模型輸出的影響。

此外，還能借助歸因圖找出對輸出結果影響最大的關鍵層。

除了研究特定提示下的特征互動（歸因圖分析），研究人員還關注特征在不同上下文下的互動，這就涉及到全局權重。

其中，虛拟權重是一種全局權重，但存在幹擾問題，即一些沒有實際因果關系的連接會幹擾對模型機制的理解。

為解決這個問題，研究人員通過限制特征範圍或引入特征共激活統計信息（如計算 TWERA），減少幹擾，從而更清晰地揭示特征間的真實關系。

研究人員對 CLT 特征的可解釋性以及歸因圖對模型行為的解釋程度進行了評估。

結果發現，CLT 特征在一定程度上能夠反映模型内部的一些語義和句法信息，歸因圖也能夠較好地展示模型在生成輸出時的關鍵步驟和特征之間的依賴關系。

但二者也都存在一些局限性，例如對于一些復雜的語義關系，CLT 特征的解釋能力有限；對于一些細微的模型行為變化，歸因圖的解釋不夠精确。

但話説回來，這種方法還是給人們帶來了有趣的發現，有人還把 Claude 算數學題的過程做出了表情包。

它以為自己是一步到位，實際上内心已經兜兜轉轉了好幾圈。

也是有些人類做工作匯報那味了。

官方簡報：

https://www.anthropic.com/research/tracing-thoughts-language-model

方法論文：

https://transformer-circuits.pub/2025/attribution-graphs/methods.html

觀察實驗論文：

https://transformer-circuits.pub/2025/attribution-graphs/biology.html

— 完 —

量子位年度 AI 主題策劃正在征集中！

歡迎投稿專題 一千零一個 AI 應用，365 行 AI 落地方案

或與我們分享你在尋找的 AI 產品，或發現的AI 新動向

一鍵關注點亮星标

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！