今天小编分享的科学经验:找出9.9,欢迎阅读。
大模型分不清 "9.9 和 9.11 哪个更大 " 的谜团,终于被可解释性研究揭秘了!
而且简单到让人哭笑不得——
一个来自 MIT、UC 伯克利的独立实验室团队,开发了能抑制大模型体内某些(与具体概念相关的)神经元的 AI 工具。
他们发现,只要把与《圣经》经文、日期、重力等概念相关的神经元激活设为 0,大模型立马能答对这道比较题。
单单是拿走《圣经》经文相关神经元,就可以让 "9.9 和 9.11 哪个更大 " 这个问题的准确率,提高 21 个百分点!
而且修复这个 bug,既不需要重新训练模型,也不需要添加额外提示词。
网友看了过后哭笑不得:
救大命了,看完过后我觉得这些因素都挺明显的,但在此之前我从未朝这上面想过。
这家 AI 独立实验室名叫Transluce AI,团队成员也趁机悉数亮相,创始团队来自 MIT、UC 伯克利、CMU 等顶尖高校。
其中还有 OpenAI 和谷歌大腦的前员工。
揭秘是什么让大模型说 "9.8<9.11"
大模型硬说 9.9<9.11 这件事,想必大家都知道了。
直至今日,Claude-3.5-Sonnet 和 GPT-4o 这样的顶尖模型,依旧固执地这样认为(或者出其他的错)。
现在,背后原因浮出水面!
先说结论吧:
这与月份、日期、重力,以及《圣经》经文有关。
发现过程是酱紫的——
Transluce AI 的研究人员针对这个著名问题,开发了一个新的技术应用Monitor。
它是一个可解释性界面,可以揭示语言模型的内部计算过程,并允许用户对其进行控制。
遵循通用的可扩展理解方法, Monitor 采用一系列 AI 驱动的工具,来帮助用户理解语言模型中的神经激活模式:
首先,一个预先编译的高质量神经元描述数据库。
这个数据库包含通过将 Transluce AI 的 AI 驱动描述流程应用在 LLaMA-3.1-8B 中的所有 MLP 神经元。
之所以选择 " 神经元 " 这个部門,是因为它们最简单,并且表现良好。
其次,一个实时界面。
实时界面的作用是展示给定聊天对话中的重要概念,用户可以通过激活度(概念激发的强度)或归因度(概念对指定目标 token 的影响程度)来衡量重要性。
再者,一个实时 AI 代码检查器。
它可自动识别出可能的虚假线索概念群集,例如在数字 9.8 上触发 "9 月 8 日 " 的神经元。
最后,一个语义引导的调节,根据自然语言输入,来增加或减少概念相关神经元集合的强度。
万事俱备,测试开始。
(有点点疑惑,展开测试过程时,研究人员把 9.9 替换成了 9.8)
研究人员使用 Monitor 的归隐功能和实时 AI 代码检查器结合,发现——
9.8<9.11 这个 bug,和日期、重力以及《圣经》经文有关。
一旦研究人员把与这几个概念有关的神经元移除,LLaMA 就能正确地回答出这个问题了。
为了更深入地探讨这个问题,研究人员采用归因分析,不仅要知道哪些概念最为活跃,还要具体分析出是哪个(些)概念影响了 LLaMA 在 "9.11 是…… " 之后说出 " 最大 " 这个词。
团队用 AI 实时代码检查器发现了之前相同的两个聚类(cluster),以及与《圣经》相关的第三个聚类。
观察发现,这个聚类中的特定神经元与《圣经》经文相关;另外,如果将 9.8 和 9.11 解读为第 9.8 章节和第 9.11 章节,也会出现大模型比错大小的情况。
发现 LLaMA 中相当一部分的神经元和《圣经》有关后,团队在介绍文章里感慨:
面对这个情况,起初我们非常惊讶,但仔细一想又挺有道理的。
毕竟大多数与训练数据集都涵盖不少的《圣经》相关内容。
于是研究人员想了个办法解决这个问题。
他们先是通过在引导 prompts 中输入 " 圣经经文 ",并按下 " 停用 "。这个操作让与 " 圣经经文 " 具有最高语义匹配的 500 个神经元激活归零。
不试不知道,一试就发现,单单是移除《圣经》经文相关神经元,LLaMA 回答这道题的准确率就能提升 21%。
更进一步的,研究人员对两个数字相关日期及其相关事件也做了同样的处理。
完成上述步骤后,LLaMA 就给出了正确答案:
9.8 更大!
整体而言,通过将《圣经》经文、日期、手机版本这三个概念的神经元集合,然后关闭合并集中的神经元,这样一套干预流程下来,LLaMA 回答这个问题的准确率达到了 77%。
关于实验更多细节,欢迎大家查看本文末尾的原文直通车。
康康背后实验室
说完研究本身,可以聊聊项目背后的团队了。
Transluce AI,贼新鲜出炉,几个小时前刚刚宣布成立。
Transluce 是透明度的意思,意味着通过某物的透光程度来揭示其本身的结构。
" 今天的复杂 AI 系统难以理解,即使技术专家部署后也无法百发百中地预测其行为。" 团队在官网上写下," 与此同时,AI 被采用的速度快过历史上任何技术。"
也是因此,像 Monitor 这样用来检查和评估模型的工具非常有必要出现和存在。
Transluce AI 给自己的定位是一个非营利性研究实验室,目标是构建开源、可扩展的技术,以理解 AI 系统并引导它们服务于公共利益。
Transluce AI 表示,自己的目标是创建世界级的 AI 系统理解工具,并利用这些工具推动建立可信赖的 AI 行业标准。
为了在 AI 系统的能力和风险分析更加可靠,这些工具必须具有可扩展性和开放性。
关于可扩展性:
AI 的结果源于多个复杂数据流的互動:训练数据、内部表示、行为和用户互動。
目前理解 AI 的方法依赖于大量的人工研究工作(常被调侃有多少人工就有多少智能)。
我们需要可扩展的方法,利用 AI 来辅助理解,通过训练 AI Agent 来理解这些复杂的数据源,向人类解释它们,并根据人类反馈修改数据。
关于开放性:
构建 AI 系统的公司不能成为其安全性的主要裁定方,因为与商业优先事项存在利益冲突。
为了允许有意义的公众监督,审计 AI 系统的工具和流程应公开验证,对公众反馈做出响应,并可供第三方评估者使用," 世界上最优秀的人才应该审查这项技术并提高其可靠性 "。
亮相第一天,除了 Monitor 外,Transluce AI 同期放出了另外两个自家实例。
LLaMA-3.1-8B-Instruct 内部每个神经元描述的数据库,以及一个用于生成这些描述的细调解释模型的权重
训练了一批通用型调查员语言模型
他们还表示,正在将团队方法扩展到前沿模型,以更优秀的 Agent 来帮助人类理解更复杂的系统。
具体来说,他们会结合团队的可观测性和启发式技术,使用户能够以可观测状态为条件指定搜索目标。
不过从长远来看,Transluce AI 将构建通用的框架来理解任何复杂的数据流,包括训练数据和多个 Agents 之间的互動。
实验室团队成员
目前对外披露的 Transluce AI创始成员大约有 10 人。
分别是:
Jacob Steinhardt,联合创始人兼 CEO。
同时,Jacob 也是 UC 伯克利统计学和电子工程与计算机科学(EECS)助理教授,谷歌学术被引数超过 20000。
他的研究方向主要面向确保 ML 系统能够被人类理解,以及与人类保持一致。
Jacob 是斯坦福大学基础模型研究中心(CRFM)主任、著名 AI 大佬 Percy Liang 的学生。
他曾在博士后期间于 OpenAI 实习过。
Sarah Schwettmann,联合创始人之一。
她在自我介绍中表示,自己是一名在 MIT 计算机科学与人工智能实验室(MIT CSAIL)以及 MIT-IBM Watson 人工智能实验室的研究科学家。
Sarah 在 MIT 拿下腦与认知科学博士学位,是两位十万引大神—— Josh Tenenbaum 和 Antonio Torralba 的学生。
她的主要工作是研究 AI(以及之前在生物神经网络)中智能背后的表征。
此外,创始团队成员几乎均出自(或仍在读)于 MIT、CMU、多伦多大学等大学。
其中,Dami Choi和Daniel D. Johnson都有在谷歌 AI 相关部门工作的经历;Neil Chowdhury曾担任过 OpenAI 预备队成员。
而Erin Xie本科毕业于北京大学,后在 2020 年拿下 CMU 的人机互動硕士学位。
与此同时,图灵奖得主 Yoshua Bengio、斯坦福 AI 大佬 Percy Liang、耶鲁大学统计学和数据科学教授 Jas Sekhon 等,都是该 AI 独立实验室的顾问。
参考链接:
[ 1 ] https://clearthis.page/?u=https://www.lesswrong.com/posts/BFamsq52ctyRziDgE/introducing-transluce-a-letter-from-the-founders
[ 2 ] https://transluce.org/observability-interface?ref=bounded-regret.ghost.io#system-design