今天小編分享的科學經驗:OpenAI震撼研究:用GPT-4解釋30萬神經元,原來AI的黑盒要AI自己去打開,歡迎閲讀。
沒想到,打開 AI 黑盒這件事,可能還要靠 AI 自己來實現了。
OpenAI 的最新研究來了一波大膽嘗試:
讓 GPT-4 去解釋 GPT-2 的行為模式。
結果顯示,超過 1000 個神經元的解釋得分在 0.8 以上——也就是説 GPT-4 能理解這些神經元。
要知道,"AI 黑箱難題 " 長期以來是一個熱議話題,尤其是大語言模型領網域,人類對其内部工作原理的理解還非常有限,這種 " 不透明化 " 也進一步引發了人類對 AI 的諸多擔憂。
目前推進 AI 可解釋性研究的一個簡單辦法,就是逐個分析大模型中的神經元,手動檢查以确定它們各自所代表的數據特征。
但對于規模已經達到百億、千億級别的大規模神經網絡來説,工作量和工作難度就都漲了億點點吧。
由此,OpenAI 的研究人員想到,幹嘛不讓 AI 去自動化搞定這個大工程?
在這項最新的研究中,他們将 GPT-4 打造成了一個理解 AI 行為模式的工具,把 GPT-2 超過 30 萬個神經單元都解釋了一遍,并和實際情況比對進行評分。
最終生成的解釋數據集和工具代碼,已對外開源。
研究人員表示:未來,這種 AI 工具可能在改善 LLM 性能上發揮巨大作用,比如減少 AI 偏見和有害輸出。
解釋接近人類水平
具體來看,整個研究的步驟可以分為三步。
第一步,先給 GPT-4 一段文本,并展示 GPT-2 在理解這段文本時激活的神經元情況。
然後讓 GPT-4 來解釋,這段文本中神經元的激活情況。
比如示例中給出了一段漫威復聯的文本,GPT-4 分析的激活神經元為:
電影、角色和娛樂
第二步,讓 GPT-4 開始模拟,這些被解釋的神經元接下來會做什麼。
GPT-4 給出了一段内容。
第三步,讓 GPT-2 真實的神經元激活來生成結果,然後和 GPT-4 模拟的結果進行比對,研究人員會對此打分。
在博客給出的示例中,GPT-4 的得分為 0.34.
使用這個辦法,研究人員讓 GPT-4 解釋了 GPT-2 一共 307200 個神經元。
OpenAI 表示,使用這一基準,AI 解釋的分數能接近人類水平。
從總體結果來看,GPT-4 在少數情況下的解釋得分很高,在 0.8 分以上。
他們還發現,不同層神經元被激活的情況,更高層的會更抽象。
此外,團隊還總結了如下幾點結論:
如果讓 GPT-4 重復解釋,它的得分能更高
如果使用更強大的模型來解釋,得分也會上升
用不同的激活函數訓練模型,能提高解釋分數
總結來看就是,雖然 GPT-4 目前的表現一般,但是這個方法和思路的提升空間還有很大。
團隊也強調,現在在 GPT-2 上的表現都不太好,如果換成更大、更復雜的模型,表現也會比較堪憂。
同時這種模式也能适用于聯網的 LLM,研究人員認為可以通過簡單調整,來弄清楚神經元如何決策搜索内容和訪問的網站。
此外他們還表示,在創建這個解釋系統時并沒有考慮商業化問題,理論上除了 GPT-4,其他 LLM 也能實現類似效果。
接下來,他們打算解決研究中的這幾個問題:
AI 神經元行為十分復雜,但 GPT-4 給的解釋非常簡單,所以有些復雜行為還無法解釋;
希望最終自動找到并解釋復雜的整個神經回路,神經元和注意力頭一起工作;
目前只解釋了神經元的行為,但沒解釋行為背後的機制;
整個過程算力消耗巨大。
網友:快進到 AI 創造 AI
意料之中,這項研究馬上在網絡上引發熱議。
大家的腦洞畫風 be like:"AI 教人類理解 AI。"
"AI 教人類關掉 AI 中存在風險的神經元。"
還有人開始暢想,AI 理解 AI 會快速發展為 AI 訓練 AI(已經開始了),然後再過不久就是 AI 創造新的 AI 了。
當然這也引發了不少擔憂,畢竟 GPT-4 本身不還是個黑盒嘛。
人類拿着自己不理解的東西,讓它解釋另一個自己不理解的東西,這個風險 emm ……
這項研究由 OpenAI 負責對齊的團隊提出。
他們表示,這部分工作是他們對齊研究的第三大支柱的一部分:
我們想要實現自動化對齊。這種想法一個值得思考的方面是,它可能随着 AI 的發展而擴展更多。随着未來 AI 模型變得越來越智能,我們也能找到對 AI 更好的解釋。
論文地址:
https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html
參考鏈接:
[ 1 ] https://openai.com/research/language-models-can-explain-neurons-in-language-models
[ 2 ] https://www.globalvillagespace.com/tech/openais-tool-explains-language-model-behavior/