大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 互聯網

大模型“湧現”的思維鏈,究竟是一種什麼能力?

2023-05-02 简体 HK SG TW

今天小編分享的互聯網經驗:大模型“湧現”的思維鏈,究竟是一種什麼能力?,歡迎閱讀。

圖片來源 @視覺中國

文 | 腦極體

聽說最近 AI 大廠的開發人員和高校的 NLP 研究人員,都在琢磨,怎麼讓大模型 " 湧現 "。那畫面莫名就讓我想到了程式員給伺服器上香來保佑不宕機,都有種求諸于天的玄學。

所謂 " 湧現 ", 在大模型領網域指的是當模型突破某個規模時,性能顯著提升,表現出讓人驚豔、意想不到的能力。比如語言理解能力、生成能力、邏輯推理能力等。一般來說,模型在 100 億到 1000 億參數區間,可能產生能力湧現。

但老話說得好 " 氪不救非,玄不改命 "。靠砸錢和運氣,只一味把模型做的大大大,也未必能讓 AI" 顯靈 "。

強大的邏輯推理是大語言模型 " 智能湧現 " 出的核心能力之一,好像 AI 有了人的意識一樣。而推理能力的關鍵,在于一個技術——思維鏈(Chain of Thought,CoT)。

大家如果看過類 GPT 應用的翻車問題,會發現大多都是數學算術題、邏輯思考題等,這類需要精确推理的問題,而這正是思維鏈能夠重點解決的。現在訓練大語言模型的企業和機構很多,但能夠訓練出思維鏈并應用的很少。

換句話說,只有解鎖了思維鏈技術,大語言模型才有可能 " 湧現 ",才能在 " 大煉模型 " 的競争中具備能力優勢。

思維鏈的故事,我們從一個奇男子說起。

一個神奇的男子

思維鏈,在人工智能領網域,是一個非常非常新的概念。

2022 年 1 月,它的相關論文才被放到 arxiv 上,成果也特别驚豔,谷歌在當年五月的年度開發者大會 Google I/O 2022,也對思維鏈這一研究成果進行了宣傳。當時同台宣傳的還有大模型 PaLM 和 Pixel 系列手機等。

你可能發現了華點,怎麼讓思維鏈聞名世界的,卻變成了 OpenAI 的 ChatGPT 呢?

這就要提到一個奇男子——思維鏈的提出者 Jason Wei。

之所以神奇,一是本人能力卓絕。

這位華人科學家,2020 年本科畢業成為谷歌大腦的高級研究員,在任職期間,提出了思維鏈的概念,發現思維鏈可以在大語言模型中增強推理能力。

(Jason Wei 的個人博客 www.jasonwei.net)

二是他的個人際遇,對 AI 影響很大,2022 年 2 月他離開谷歌,加入了 OpenAI,進入 ChatGPT 團隊,這也是思維鏈在 OpenAI 發揚光大,讓 ChatGPT 拔得頭籌的原因之一。

那這位奇男子和同事的工作,究竟幹了什麼呢?

谷歌之前在大模型下了很大功夫,GPT 生成式預訓練模型中的 "T",也就是 Transformer,就是谷歌大腦搞出來的。但是,預訓練 + 精調的大模型搞了幾年,仍然沒辦法很好地完成多步驟推理任務,比如數學問題和常識推理。

所以 Jason Wei 等人提出了思維鏈提示的方法,真的一下子就讓大模型的邏輯推理能力不一樣了。

具體來說,有三個不一樣:

1. 常識推理能力趕超人類。以前的語言模型,在很多挑戰性任務上都達不到人類水平,而采用思維鏈提示的大語言模型,在 Bench Hard ( BBH ) 評測基準的 23 個任務中,有 17 個任務的表現都優于人類基線。

比如常識推理中會包括對身體和互動的理解,而在運動理解 sports understanding 方面,思維鏈的表現就超過了運動愛好者(95% vs 84%)。

(思想鏈被高亮顯示)

2. 數學邏輯推理大幅提升。

一般來說,語言模型在算術推理任務上的表現不太好,而應用了思維鏈之後,大語言模型的邏輯推理能力突飛猛進。

MultiArith 和 GSM8K 這兩個數據集,測試的是語言模型解決數學問題的能力,而通過思維鏈提示,PaLM 這個大語言模型比傳統提示學習的性能提高了 300%!

在 MultiArith 和 GSM8K 上的表現提升巨大,甚至超過了有監督學習的最優表現。 

這意味着,大語言模型也可以解決那些需要精确的、分步驟計算的復雜數學問題了。

3. 大語言模型更具可解釋性,更加可信。

我們知道超大規模的無監督深度學習,打造出來的大模型是一個黑盒,推理決策鏈不可知,這就會讓模型結果變得不夠可信。

而思維鏈将一個邏輯推理問題,分解成了多個步驟,來一步步進行,這樣生成的結果就有着更加清晰的邏輯鏈路,提供了一定的可解釋性,讓人知道答案是怎麼來的。

Jason Wei 這位奇男子提出的思維鏈,可以說是大語言模型驚豔世界的必要條件。

一句神奇的咒語

花式調戲大語言模型,有一句非常神奇的咒語,能讓 LLM 的回答結果大不一樣,那就是——"Let ’ s think step by step"。

此前很多用戶就發現,一旦在問題中加上 "Let ’ s think step by step",ChatGPT 就好像被施了魔法,原本做錯的數學題,突然就會做了;原本的胡說八道,突然就有理有據了。

這就是思維鏈的魔力。

 

思維鏈 ( Chain-of-thought,CoT ) ,指的是一系列有邏輯關系的思考步驟,形成一個完整的思考過程。

人在日常生活中,随時随地都會用思維鏈來解決問題,比如工作、讀書經常用到的思維導圖,就是為了盡可能全面拆解步驟,不忽略重要細節,從而充分地考慮問題。

這種步驟分解的方式用在提示學習中,就被稱為思維鏈提示,将大語言模型的推理過程,分解成一個個步驟,直觀地展現出來,這樣開發人員可以在 LLM 推理出現錯誤時,就及時地修復。

相當于讓 AI 做分析題,而不是 " 填空題 ",要把推理過程詳細說清楚,按步驟得分,最後給出答案。

Jason Wei 等在 2022 年的論文中,展示了标準提示學習和思維鏈提示的不同之處:

可以看到,類似的算術題,思維鏈提示會在給出答案之前,還會自動給出推理步驟:

" 羅傑先有 5 個球,2 罐 3 個網球等于 6 個,5 + 6 = 11"

" 食堂原來有 23 個蘋果,用 20 個做午餐,23-20=3;又買了 6 個蘋果,3+6=9"。

思維鏈提示給出了正确答案,而直接報答案的傳統提示學習,給出的答案就是錯的,連小學程度的加減法都做不好。

簡單來說,語言模型很難将所有的語義直接轉化為一個方程,因為這是一個更加復雜的思考過程,但可以通過中間步驟,來更好地推理問題的每個部分。

思維鏈提示,就是把一個多步驟推理問題,分解成很多個中間步驟,分配給更多的計算量,生成更多的 token,再把這些答案拼接在一起進行求解。

再舉個例子,大家都特别希望有一個全能家政機器人,但目前的機器人看起來都挺傻的,只能執行一些很簡單的開關燈指令。如果用戶問:" 我把可樂灑在桌子上了,你能把它扔掉,然後拿點東西來幫我清理嗎?"

機器人該怎麼辦呢?

這時候有思維鏈的語言模型,會分析問題:用戶把可樂灑在桌子上了。我會把它扔掉,然後給用戶一塊海綿。

拆解步驟:找 ( 可樂 ) ,揀 ( 可樂 ) ,找 ( 垃圾 ) ,扔 ( 可樂 ) ,找 ( 海綿 ) ,揀 ( 海綿 ) ,找 ( 桌子 ) ,放 ( 海綿 ) 。

總的來說,思維鏈就相當于讓大語言模型做 " 因式分解 ",把一個復雜的推理問題進行拆解,逐步解決,自然也就更容易得到高質量的答案了。

一個打破僵局的靈

你可能會問,大語言模型 " 智能湧現 ",思維鏈是必須的嗎?目前階段,确實。

因為,預訓練的大語言模型參數規模巨大,很容易被不相關的上下文分散注意力,影響性能表現,相當于學生上課走神了,被老師叫起來回答問題只能胡言亂語。這時候就需要提示學習(Prompt Learning)來進行微調,相當于旁邊有人給提了個醒,更好地完成下遊任務。

但離散式的硬提示(Discrete Prompt),需要人為設計提示詞 prompt,而人類覺得不錯的提示詞,語言模型卻不一定覺得好,最後還是回答的一塌糊塗,而且,離散的 token 作為提示詞,優化難度也特别大。

所以,連續化的軟提示(Continuous Prompt),限制了模型參數不被調整,直接優化低維向量,這樣就可以用較小的微調來提升模型性能。這個方法省事兒,效果也不錯,但一直走這條路還是沒辦法讓語言模型搞懂邏輯推理。

思維鏈的提出,用的是離散式的 token,又能自動構建問題、推理步驟和樣例,這就解決了離散提示人工設計難的問題,而且還能讓語言模型擁有可解釋性。

所以說,思維鏈 promoting,可以算是打破了大語言模型能力僵局的神來之筆。有時候技術的突破靠的就是一個靈感,而造就這個靈感的人才機制、創新環境、組織模式等,卻需要漫長的時間去培育。

一些待解的問題

說了這麼多,是不是有了思維鏈,大語言模型就所向披靡了呢?照這麼發展下去,真能媲美人類的能力了?

大可不必擔心,思維鏈本身還是有很多局限的,而它的局限也是大語言模型的局限。

首先,思維鏈必須在模型規模足夠大時才能湧現。

在 Jason Wei 等的研究中,PaLM 在擴展到 540B 參數時,與思維鏈提示結合,才表現出了先進的性能。一些小規模模型,思維鏈并沒有太大的影響,能力提升也不會很大。

谷歌大腦的研究人員認為,策略問題需要大量的世界知識,而小型模型沒有足夠的參數來記憶這些世界知識,所以也不太可能產生正确的推理步驟。

但問題是,能落地到產業的模型,規模必然不會太大,思維鏈拆解了更多的步驟、用到更多的計算資源,相當于更加耗費腦力,很多研究機構和企業是負擔不起 175B 參數以上的大模型。

所以思維鏈必須要探索,如何在較小的模型中進行推理,降低實際應用的成本。

(62B 比 540B 的語言模型更容易出錯)

其次,思維鏈的應用領網域是有限的。

目前,思維鏈只是在一些有限的領網域,比如數學問題,五個常識推理基準(CommonsenseQA,StrategyQA,Date Understanding 和 Sports Understanding 以及 SayCan)上顯現出作用,其他類型的任務,像是機器翻譯,性能提升效果還有待評估。

而且,相關研究用到的模型(GPT-3 API)或數據集,都是半公開或不公開的,這就使其難以被復現和驗證。嚴謹來看,思維鏈的效果還需要被進一步探索,才能下定論。

此外,即使有思維鏈提示,大語言模型依然不能解決小學水平的數學問題。

沒有思維鏈,數學推理是指定不行。但有了思維鏈,大語言模型也可能出現錯誤推理,尤其是非常簡單的計算錯誤。Jason Wei 等的論文中,曾展示過在 GSM8K 的一個子集中,大語言模型出現了 8% 的計算錯誤,比如 6 * 13 = 68(正确答案是 78)。

這說明,即使有了思維鏈,大語言模型還是沒有真正理解數學邏輯,不知道加減乘除的真實意義,只是通過更精細的疊加來 " 照葫蘆畫瓢 ",所以,對于有精确要求的任務,還要進一步探索新的技術。

思維鏈确實增強了大語言模型的能力,但邏輯推理仍然是大語言模型的弱項,等待着更多突破。

One more thing

通過思維鏈,我們可以看到大語言模型為什麼強,也為什麼弱。

它強在,模型規模的提高,讓語義理解、符号映射、連貫文本生成等能力躍升,從而讓多步驟推理的思維鏈成為可能,帶來 " 智能湧現 "。

它弱在,即使大語言模型表現出了前所未有的能力,但思維鏈暴露了它,依然是鹦鹉學舌,而非真的產生了意識。

認知心理學教授斯坦尼斯拉斯 · 迪昂(Stanislas Dehaene)在《精準學習》中提出,緩慢地、理智地、符号化地運作,是人腦的特權。它可以在任何可能的時候,提取具有普遍性、邏輯性的、明确的原則。

五六歲的兒童學會了較小數字的加法,就可以理解其含義,用到更大的數字的加法中,而目前最強大的大語言模型,還連 " 加法 " 這個簡單的抽象定律都理解不了。

這麼說,并不是讓大家小看 AI 的能力,而是想說明,人腦和 AI,各有所長。

大語言模型,正如科幻作家特德 · 姜所說,是網上所有文本的模糊影像,一張有損壓縮的 JPEG,但它可以用遠超人腦的算力和數據,極其高產地做好文本生成、影像生成這樣的模糊任務。而人腦更擅長精确的、邏輯性的任務,就像特德 · 姜說的:" 當你還有原始圖片的時候,一張模糊的 JPEG 到底有多大用處呢?"

智能時代的生存策略,就是不要以己之短,硬碰 AI 之長。而是用 AI 之長,讓自己的長板變得更長;用人腦的精确,讓 AI 生成的模糊答案變得更高質量;用好思維鏈提示,讓 LLM 生成時事半功倍。

《哈利波特》電影中,有一個 " 有求必應屋 ",裡面全是人所需要的東西,海倫娜形容它:

If you have to ask, you'll never know. If you know, you need only ask.

如果你還需要問,就永遠不會明白;如果你明白,你只需要開口問。

有問必答的 AI 時代,是智者的天堂,也是愚者的地獄。永遠不要讓 AI 代替你思考。

更多精彩内容,關注钛媒體微信号(ID:taimeiti),或者下載钛媒體 App

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們