大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

Claude團隊開盒Transformer:AI大腦原來這樣工作

2025-03-28 简体 HK SG TW

今天小編分享的科學經驗:Claude團隊開盒Transformer:AI大腦原來這樣工作,歡迎閱讀。

大模型工作機制的黑盒,終于被 Claude 團隊揭開了神秘面紗!

團隊創造了一種解讀大模型思考方式的新工具,就像給大模型做了個 " 腦部核磁 "。

他們還發現,Claude 在某些任務上具備長遠規劃能力,甚至還會為了迎合人類而編造推理過程。

具體來說,研究人員提出了一種名為 " 電路追蹤 " 的方法。

它利用跨層編碼器(CLT)替代原模型中的多層感知機(MLP),搭建出和原模型相似的替代模型。

在此基礎上,構建歸因圖來描述模型在特定提示下生成輸出的計算步驟,從而觀察模型的思考過程。

Claude 團隊将這項研究的方法和發現分别寫成了論文,總計篇幅超過了 8 萬字。

探究大模型内在推理過程

利用電路追蹤方法,團隊對 Claude 3.5 Haiku 在長邏輯推理、多語言、長期規劃等任務場景的工作過程進行了觀察,發現了其中許多特點:

Claude 有時會在不同語言之間共享的概念空間中思考,這表明它有一種通用的 " 思維語言 ";

Claude 會提前計劃好要生成的内容,如在詩歌領網域,它會提前考慮可能的押韻詞,證明了模型可能會在更長遠的範圍内思考;

Claude 有時會給出一個看似合理的論點,旨在同意用戶的觀點,而不是遵循邏輯步驟,甚至為迎合人類答案反向尋找推理過程;

Claude 并沒有配備數學算法,但可以在 " 頭腦中 " 正确地進行加法運算。

多語言推理

在多語言場景中,作者研究了模型對 "the opposite of ‘ small ’ " 的不同語言版本(英語、法語、中文)的處理,發現模型處理這些提示的電路相似,包含共享的多語言組件和特定語言組件。

模型能識别出是在詢問 "small" 的反義詞,通過語言獨立的表示觸發反義詞特征,同時利用語言特定的引号特征等确定輸出語言。

幹預實驗表明,交換操作(反義詞換為同義詞)、被操作單詞("small" 換為 "hot")和語言特征,模型能相應地輸出合适的結果,證明了電路中各部分的獨立性和語言無關性。

詩歌創作和長規劃能力

在創作 "His hunger was like a starving rabbit" 這樣的押韻詩時,模型展現出規劃能力。

在第二行開始前的換行符位置,模型激活了與 "rabbit" 相關的規劃特征,這些特征受前一行 "it" 的影響,激活了押韻特征和候選完成詞特征,從而影響最後一個詞的選擇。

此外,規劃特征不僅影響最後一個詞,還影響中間詞 "like" 的生成,并且會根據規劃詞改變句子結構。

通過多種幹預實驗,如抑制規劃特征或注入不同的規劃詞,證實了規劃特征對最終詞概率、中間詞和句子結構的影響。

多步驟推理

針對 "Fact: the capital of the state containing Dallas is" 的提示,模型成功回答 "Austin"。

經研究發現,模型内部存在多步推理機制,通過分析歸因圖,識别出代表不同概念的特征并分組為超節點,如 "Texas""capital""say a capital""say Austin" 等。

這些特征相互作用,形成從 "Dallas" 到 "Texas" 再到 "Austin" 的推理路徑,同時也存在從 "Dallas" 直接到 "say Austin" 的 "shortcut" 邊。

抑制實驗表明,抑制相關特征會影響下遊特征的激活和模型輸出;

特征替換實驗發現,改變模型對 "Texas" 的表征,模型會輸出其他地區的首府,驗證了多步推理機制的存在。

數學計算

在 " 數學計算 " 當中,作者發現 Claude 采用了多條并行工作的計算路徑。

一條路徑計算答案的粗略近似值,另一條路徑則專注于精确确定總和的最後一位數字。

這些路徑相互作用并相互結合,以得出最終答案。

有意思的是,Claude 似乎沒有意識到它在訓練期間學到的復雜的 " 心算 " 策略。

如果問它是如何得出 36+59 等于 95 的,它會描述涉及進位 1 的标準算法。

這可能反映了這樣一個事實——模型在解釋數學問題時會模仿人類的方式,但在自己做計算的時候 " 頭腦中 " 使用的卻是自己的一套方法。

此外,Claude 團隊還用同樣的方法針對模型準确性、幻覺、越獄等問題進行了研究,關于這部分内容以及前面實驗的更多詳情,可閱讀原始論文。

下面就來看看 Claude 團隊這種 " 電路追蹤 " 的方法,究竟是怎麼一回事。

構建替代模型,獲得歸因圖

Claude 團隊用的電路追蹤方法,核心就是通過構建可解釋的替代模型來揭示語言模型的計算圖。

研究人員設計了 CLT,它由和原模型層數一樣的神經元(也就是 " 特征 ")構成。

這些特征從原模型殘差流獲取輸入,通過線性編碼器和非線性函數處理後,能為後續多層的 MLP 輸出提供信息。

訓練 CLT 時,通過調整參數最小化重建誤差和稀疏性懲罰,讓它能盡量模仿原模型 MLP 的輸出。

然後,團隊把訓練好的 CLT 特征嵌入原模型,替換 MLP 神經元,構建出替代模型。

在運行替代模型時,會在 MLP 輸入階段計算 CLT 特征的激活值,在輸出階段用 CLT 特征的輸出替代原 MLP 的輸出。

為了讓替代模型更貼近原模型,研究人員針對特定的輸入提示,構建了局部替代模型。

這個模型不僅用 CLT 替換 MLP 層,還固定原模型在該提示下的注意力模式和歸一化分母,并對 CLT 輸出進行誤差調整,使得局部替代模型的激活和輸出與原模型完全一致。

當有了可靠的局部替代模型後,就進入生成并分析歸因圖環節。

對于給定的輸入提示,研究人員構建歸因圖來展示模型生成輸出的計算步驟。

歸因圖包含輸出節點、中間節點、輸入節點和誤差節點,圖中的邊表示這些節點間的線性影響關系。

計算邊的權重時,會用到反向雅可比矩陣。由于完整的歸因圖非常復雜,研究人員采用剪枝算法,去掉那些對輸出結果影響較小的節點和邊,從而得到簡化且更易理解的歸因圖。

為了理解歸因圖,研究人員開發了互動式可視化界面。

他們通過觀察特征在不同數據樣本上的激活情況,手動為特征标注含義,并把功能相關的特征歸為超節點。

為了驗證歸因圖的準确性,他們進行特征擾動實驗,即改變某些特征的激活值,觀察對其他特征和模型輸出的影響。

此外,還能借助歸因圖找出對輸出結果影響最大的關鍵層。

除了研究特定提示下的特征互動(歸因圖分析),研究人員還關注特征在不同上下文下的互動,這就涉及到全局權重。

其中,虛拟權重是一種全局權重,但存在幹擾問題,即一些沒有實際因果關系的連接會幹擾對模型機制的理解。

為解決這個問題,研究人員通過限制特征範圍或引入特征共激活統計信息(如計算 TWERA),減少幹擾,從而更清晰地揭示特征間的真實關系。

研究人員對 CLT 特征的可解釋性以及歸因圖對模型行為的解釋程度進行了評估。

結果發現,CLT 特征在一定程度上能夠反映模型内部的一些語義和句法信息,歸因圖也能夠較好地展示模型在生成輸出時的關鍵步驟和特征之間的依賴關系。

但二者也都存在一些局限性,例如對于一些復雜的語義關系,CLT 特征的解釋能力有限;對于一些細微的模型行為變化,歸因圖的解釋不夠精确。

但話說回來,這種方法還是給人們帶來了有趣的發現,有人還把 Claude 算數學題的過程做出了表情包。

它以為自己是一步到位,實際上内心已經兜兜轉轉了好幾圈。

也是有些人類做工作匯報那味了。

官方簡報:

https://www.anthropic.com/research/tracing-thoughts-language-model

方法論文:

https://transformer-circuits.pub/2025/attribution-graphs/methods.html

觀察實驗論文:

https://transformer-circuits.pub/2025/attribution-graphs/biology.html

—  完  —

量子位年度 AI 主題策劃正在征集中!

歡迎投稿專題  一千零一個 AI 應用,365 行 AI 落地方案

或與我們分享你在尋找的 AI 產品,或發現的AI 新動向

一鍵關注 點亮星标

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們