大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

找出9.9

2024-10-25 简体 HK SG TW

今天小編分享的科學經驗:找出9.9,歡迎閲讀。

大模型分不清 "9.9 和 9.11 哪個更大 " 的謎團,終于被可解釋性研究揭秘了!

而且簡單到讓人哭笑不得——

一個來自 MIT、UC 伯克利的獨立實驗室團隊,開發了能抑制大模型體内某些(與具體概念相關的)神經元的 AI 工具。

他們發現,只要把與《聖經》經文、日期、重力等概念相關的神經元激活設為 0,大模型立馬能答對這道比較題。

單單是拿走《聖經》經文相關神經元,就可以讓 "9.9 和 9.11 哪個更大 " 這個問題的準确率,提高 21 個百分點!

而且修復這個 bug,既不需要重新訓練模型,也不需要添加額外提示詞。

網友看了過後哭笑不得:

救大命了,看完過後我覺得這些因素都挺明顯的,但在此之前我從未朝這上面想過。

這家 AI 獨立實驗室名叫Transluce AI,團隊成員也趁機悉數亮相,創始團隊來自 MIT、UC 伯克利、CMU 等頂尖高校。

其中還有 OpenAI 和谷歌大腦的前員工。

揭秘是什麼讓大模型説 "9.8<9.11"

大模型硬説 9.9<9.11 這件事,想必大家都知道了。

直至今日,Claude-3.5-Sonnet 和 GPT-4o 這樣的頂尖模型,依舊固執地這樣認為(或者出其他的錯)。

現在,背後原因浮出水面!

先説結論吧:

這與月份、日期、重力,以及《聖經》經文有關。

發現過程是醬紫的——

Transluce AI 的研究人員針對這個著名問題,開發了一個新的技術應用Monitor。

它是一個可解釋性界面,可以揭示語言模型的内部計算過程,并允許用户對其進行控制。

遵循通用的可擴展理解方法, Monitor 采用一系列 AI 驅動的工具,來幫助用户理解語言模型中的神經激活模式:

首先,一個預先編譯的高質量神經元描述數據庫。

這個數據庫包含通過将 Transluce AI 的 AI 驅動描述流程應用在 LLaMA-3.1-8B 中的所有 MLP 神經元。

之所以選擇 " 神經元 " 這個部門,是因為它們最簡單,并且表現良好。

其次,一個實時界面。

實時界面的作用是展示給定聊天對話中的重要概念,用户可以通過激活度(概念激發的強度)或歸因度(概念對指定目标 token 的影響程度)來衡量重要性。

再者,一個實時 AI 代碼檢查器。

它可自動識别出可能的虛假線索概念群集,例如在數字 9.8 上觸發 "9 月 8 日 " 的神經元。

最後,一個語義引導的調節,根據自然語言輸入,來增加或減少概念相關神經元集合的強度。

萬事俱備,測試開始。

(有點點疑惑,展開測試過程時,研究人員把 9.9 替換成了 9.8)

研究人員使用 Monitor 的歸隐功能和實時 AI 代碼檢查器結合,發現——

9.8<9.11 這個 bug,和日期、重力以及《聖經》經文有關。

一旦研究人員把與這幾個概念有關的神經元移除,LLaMA 就能正确地回答出這個問題了。

為了更深入地探讨這個問題,研究人員采用歸因分析,不僅要知道哪些概念最為活躍,還要具體分析出是哪個(些)概念影響了 LLaMA 在 "9.11 是…… " 之後説出 " 最大 " 這個詞。

團隊用 AI 實時代碼檢查器發現了之前相同的兩個聚類(cluster),以及與《聖經》相關的第三個聚類。

觀察發現,這個聚類中的特定神經元與《聖經》經文相關;另外,如果将 9.8 和 9.11 解讀為第 9.8 章節和第 9.11 章節,也會出現大模型比錯大小的情況。

發現 LLaMA 中相當一部分的神經元和《聖經》有關後,團隊在介紹文章裏感慨:

面對這個情況,起初我們非常驚訝,但仔細一想又挺有道理的。

畢竟大多數與訓練數據集都涵蓋不少的《聖經》相關内容。

于是研究人員想了個辦法解決這個問題。

他們先是通過在引導 prompts 中輸入 " 聖經經文 ",并按下 " 停用 "。這個操作讓與 " 聖經經文 " 具有最高語義匹配的 500 個神經元激活歸零。

不試不知道,一試就發現,單單是移除《聖經》經文相關神經元,LLaMA 回答這道題的準确率就能提升 21%。

更進一步的,研究人員對兩個數字相關日期及其相關事件也做了同樣的處理。

完成上述步驟後,LLaMA 就給出了正确答案:

9.8 更大!

整體而言,通過将《聖經》經文、日期、手機版本這三個概念的神經元集合,然後關閉合并集中的神經元,這樣一套幹預流程下來,LLaMA 回答這個問題的準确率達到了 77%。

關于實驗更多細節,歡迎大家查看本文末尾的原文直通車。

康康背後實驗室

説完研究本身,可以聊聊項目背後的團隊了。

Transluce AI,賊新鮮出爐,幾個小時前剛剛宣布成立。

Transluce 是透明度的意思,意味着通過某物的透光程度來揭示其本身的結構。

" 今天的復雜 AI 系統難以理解,即使技術專家部署後也無法百發百中地預測其行為。" 團隊在官網上寫下," 與此同時,AI 被采用的速度快過歷史上任何技術。"

也是因此,像 Monitor 這樣用來檢查和評估模型的工具非常有必要出現和存在。

Transluce AI 給自己的定位是一個非營利性研究實驗室,目标是構建開源、可擴展的技術,以理解 AI 系統并引導它們服務于公共利益。

Transluce AI 表示,自己的目标是創建世界級的 AI 系統理解工具,并利用這些工具推動建立可信賴的 AI 行業标準。

為了在 AI 系統的能力和風險分析更加可靠,這些工具必須具有可擴展性和開放性。

關于可擴展性:

AI 的結果源于多個復雜數據流的互動:訓練數據、内部表示、行為和用户互動。

目前理解 AI 的方法依賴于大量的人工研究工作(常被調侃有多少人工就有多少智能)。

我們需要可擴展的方法,利用 AI 來輔助理解,通過訓練 AI Agent 來理解這些復雜的數據源,向人類解釋它們,并根據人類反饋修改數據。

關于開放性:

構建 AI 系統的公司不能成為其安全性的主要裁定方,因為與商業優先事項存在利益衝突。

為了允許有意義的公眾監督,審計 AI 系統的工具和流程應公開驗證,對公眾反饋做出響應,并可供第三方評估者使用," 世界上最優秀的人才應該審查這項技術并提高其可靠性 "。

亮相第一天,除了 Monitor 外,Transluce AI 同期放出了另外兩個自家實例。

LLaMA-3.1-8B-Instruct 内部每個神經元描述的數據庫,以及一個用于生成這些描述的細調解釋模型的權重

訓練了一批通用型調查員語言模型

他們還表示,正在将團隊方法擴展到前沿模型,以更優秀的 Agent 來幫助人類理解更復雜的系統。

具體來説,他們會結合團隊的可觀測性和啓發式技術,使用户能夠以可觀測狀态為條件指定搜索目标。

不過從長遠來看,Transluce AI 将構建通用的框架來理解任何復雜的數據流,包括訓練數據和多個 Agents 之間的互動。

實驗室團隊成員

目前對外披露的 Transluce AI創始成員大約有 10 人。

分别是:

Jacob Steinhardt,聯合創始人兼 CEO。

同時,Jacob 也是 UC 伯克利統計學和電子工程與計算機科學(EECS)助理教授,谷歌學術被引數超過 20000。

他的研究方向主要面向确保 ML 系統能夠被人類理解,以及與人類保持一致。

Jacob 是斯坦福大學基礎模型研究中心(CRFM)主任、著名 AI 大佬 Percy Liang 的學生。

他曾在博士後期間于 OpenAI 實習過。

Sarah Schwettmann,聯合創始人之一。

她在自我介紹中表示,自己是一名在 MIT 計算機科學與人工智能實驗室(MIT CSAIL)以及 MIT-IBM Watson 人工智能實驗室的研究科學家。

Sarah 在 MIT 拿下腦與認知科學博士學位,是兩位十萬引大神—— Josh Tenenbaum 和 Antonio Torralba 的學生。

她的主要工作是研究 AI(以及之前在生物神經網絡)中智能背後的表征。

此外,創始團隊成員幾乎均出自(或仍在讀)于 MIT、CMU、多倫多大學等大學。

其中,Dami Choi和Daniel D. Johnson都有在谷歌 AI 相關部門工作的經歷;Neil Chowdhury曾擔任過 OpenAI 預備隊成員。

而Erin Xie本科畢業于北京大學,後在 2020 年拿下 CMU 的人機互動碩士學位。

與此同時,圖靈獎得主 Yoshua Bengio、斯坦福 AI 大佬 Percy Liang、耶魯大學統計學和數據科學教授 Jas Sekhon 等,都是該 AI 獨立實驗室的顧問。

參考鏈接:

[ 1 ] https://clearthis.page/?u=https://www.lesswrong.com/posts/BFamsq52ctyRziDgE/introducing-transluce-a-letter-from-the-founders

[ 2 ] https://transluce.org/observability-interface?ref=bounded-regret.ghost.io#system-design

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們