大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

Claude团队开盒Transformer:AI大腦原来这样工作

2025-03-28 简体 HK SG TW

今天小编分享的科学经验:Claude团队开盒Transformer:AI大腦原来这样工作,欢迎阅读。

大模型工作机制的黑盒,终于被 Claude 团队揭开了神秘面纱!

团队创造了一种解读大模型思考方式的新工具,就像给大模型做了个 " 腦部核磁 "。

他们还发现,Claude 在某些任务上具备长远规划能力,甚至还会为了迎合人类而编造推理过程。

具体来说,研究人员提出了一种名为 " 电路追踪 " 的方法。

它利用跨层编码器(CLT)替代原模型中的多层感知机(MLP),搭建出和原模型相似的替代模型。

在此基础上,构建归因图来描述模型在特定提示下生成输出的计算步骤,从而观察模型的思考过程。

Claude 团队将这项研究的方法和发现分别写成了论文,总计篇幅超过了 8 万字。

探究大模型内在推理过程

利用电路追踪方法,团队对 Claude 3.5 Haiku 在长逻辑推理、多语言、长期规划等任务场景的工作过程进行了观察,发现了其中许多特点:

Claude 有时会在不同语言之间共享的概念空间中思考,这表明它有一种通用的 " 思维语言 ";

Claude 会提前计划好要生成的内容,如在诗歌领網域,它会提前考虑可能的押韵词,证明了模型可能会在更长远的范围内思考;

Claude 有时会给出一个看似合理的论点,旨在同意用户的观点,而不是遵循逻辑步骤,甚至为迎合人类答案反向寻找推理过程;

Claude 并没有配备数学算法,但可以在 " 头腦中 " 正确地进行加法运算。

多语言推理

在多语言场景中,作者研究了模型对 "the opposite of ‘ small ’ " 的不同语言版本(英语、法语、中文)的处理,发现模型处理这些提示的电路相似,包含共享的多语言组件和特定语言组件。

模型能识别出是在询问 "small" 的反义词,通过语言独立的表示触发反义词特征,同时利用语言特定的引号特征等确定输出语言。

干预实验表明,交换操作(反义词换为同义词)、被操作单词("small" 换为 "hot")和语言特征,模型能相应地输出合适的结果,证明了电路中各部分的独立性和语言无关性。

诗歌创作和长规划能力

在创作 "His hunger was like a starving rabbit" 这样的押韵诗时,模型展现出规划能力。

在第二行开始前的换行符位置,模型激活了与 "rabbit" 相关的规划特征,这些特征受前一行 "it" 的影响,激活了押韵特征和候选完成词特征,从而影响最后一个词的选择。

此外,规划特征不仅影响最后一个词,还影响中间词 "like" 的生成,并且会根据规划词改变句子结构。

通过多种干预实验,如抑制规划特征或注入不同的规划词,证实了规划特征对最终词概率、中间词和句子结构的影响。

多步骤推理

针对 "Fact: the capital of the state containing Dallas is" 的提示,模型成功回答 "Austin"。

经研究发现,模型内部存在多步推理机制,通过分析归因图,识别出代表不同概念的特征并分组为超节点,如 "Texas""capital""say a capital""say Austin" 等。

这些特征相互作用,形成从 "Dallas" 到 "Texas" 再到 "Austin" 的推理路径,同时也存在从 "Dallas" 直接到 "say Austin" 的 "shortcut" 边。

抑制实验表明,抑制相关特征会影响下游特征的激活和模型输出;

特征替换实验发现,改变模型对 "Texas" 的表征,模型会输出其他地区的首府,验证了多步推理机制的存在。

数学计算

在 " 数学计算 " 当中,作者发现 Claude 采用了多条并行工作的计算路径。

一条路径计算答案的粗略近似值,另一条路径则专注于精确确定总和的最后一位数字。

这些路径相互作用并相互结合,以得出最终答案。

有意思的是,Claude 似乎没有意识到它在训练期间学到的复杂的 " 心算 " 策略。

如果问它是如何得出 36+59 等于 95 的,它会描述涉及进位 1 的标准算法。

这可能反映了这样一个事实——模型在解释数学问题时会模仿人类的方式,但在自己做计算的时候 " 头腦中 " 使用的却是自己的一套方法。

此外,Claude 团队还用同样的方法针对模型准确性、幻觉、越狱等问题进行了研究,关于这部分内容以及前面实验的更多详情,可阅读原始论文。

下面就来看看 Claude 团队这种 " 电路追踪 " 的方法,究竟是怎么一回事。

构建替代模型,获得归因图

Claude 团队用的电路追踪方法,核心就是通过构建可解释的替代模型来揭示语言模型的计算图。

研究人员设计了 CLT,它由和原模型层数一样的神经元(也就是 " 特征 ")构成。

这些特征从原模型残差流获取输入,通过线性编码器和非线性函数处理后,能为后续多层的 MLP 输出提供信息。

训练 CLT 时,通过调整参数最小化重建误差和稀疏性惩罚,让它能尽量模仿原模型 MLP 的输出。

然后,团队把训练好的 CLT 特征嵌入原模型,替换 MLP 神经元,构建出替代模型。

在运行替代模型时,会在 MLP 输入阶段计算 CLT 特征的激活值,在输出阶段用 CLT 特征的输出替代原 MLP 的输出。

为了让替代模型更贴近原模型,研究人员针对特定的输入提示,构建了局部替代模型。

这个模型不仅用 CLT 替换 MLP 层,还固定原模型在该提示下的注意力模式和归一化分母,并对 CLT 输出进行误差调整,使得局部替代模型的激活和输出与原模型完全一致。

当有了可靠的局部替代模型后,就进入生成并分析归因图环节。

对于给定的输入提示,研究人员构建归因图来展示模型生成输出的计算步骤。

归因图包含输出节点、中间节点、输入节点和误差节点,图中的边表示这些节点间的线性影响关系。

计算边的权重时,会用到反向雅可比矩阵。由于完整的归因图非常复杂,研究人员采用剪枝算法,去掉那些对输出结果影响较小的节点和边,从而得到简化且更易理解的归因图。

为了理解归因图,研究人员开发了互動式可视化界面。

他们通过观察特征在不同数据样本上的激活情况,手动为特征标注含义,并把功能相关的特征归为超节点。

为了验证归因图的准确性,他们进行特征扰动实验,即改变某些特征的激活值,观察对其他特征和模型输出的影响。

此外,还能借助归因图找出对输出结果影响最大的关键层。

除了研究特定提示下的特征互動(归因图分析),研究人员还关注特征在不同上下文下的互動,这就涉及到全局权重。

其中,虚拟权重是一种全局权重,但存在干扰问题,即一些没有实际因果关系的连接会干扰对模型机制的理解。

为解决这个问题,研究人员通过限制特征范围或引入特征共激活统计信息(如计算 TWERA),减少干扰,从而更清晰地揭示特征间的真实关系。

研究人员对 CLT 特征的可解释性以及归因图对模型行为的解释程度进行了评估。

结果发现,CLT 特征在一定程度上能够反映模型内部的一些语义和句法信息,归因图也能够较好地展示模型在生成输出时的关键步骤和特征之间的依赖关系。

但二者也都存在一些局限性,例如对于一些复杂的语义关系,CLT 特征的解释能力有限;对于一些细微的模型行为变化,归因图的解释不够精确。

但话说回来,这种方法还是给人们带来了有趣的发现,有人还把 Claude 算数学题的过程做出了表情包。

它以为自己是一步到位,实际上内心已经兜兜转转了好几圈。

也是有些人类做工作汇报那味了。

官方简报:

https://www.anthropic.com/research/tracing-thoughts-language-model

方法论文:

https://transformer-circuits.pub/2025/attribution-graphs/methods.html

观察实验论文:

https://transformer-circuits.pub/2025/attribution-graphs/biology.html

—  完  —

量子位年度 AI 主题策划正在征集中!

欢迎投稿专题  一千零一个 AI 应用,365 行 AI 落地方案

或与我们分享你在寻找的 AI 产品,或发现的AI 新动向

一键关注 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們