大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

大模型物種進化圖轉瘋了:8位華人打造,一眼看懂“界門綱目”,原來BERT後代已絕種

2023-05-07 简体 HK SG TW

今天小編分享的科學經驗:大模型物種進化圖轉瘋了:8位華人打造,一眼看懂“界門綱目”,原來BERT後代已絕種,歡迎閱讀。

這幾天,一張名為 " 大語言模型進化樹 " 的動圖在學術圈瘋轉:

它清晰梳理了 2018 到 2023五年間所有的大語言模型 " 代表作 ",并将這些模型架構抽成三大類,進化結果一目了然:

業界頗具影響力的谷歌 BERT,從一開始就走向了 " 岔路 ",如今在生成 AI 領網域已瀕臨淘汰;

與谷歌和 Meta" 多線布局 " 不同,OpenAI 從 GPT-1 開始,就堅定其中一條技術路線,如今成功走在這條路線的最前沿……

有網友調侃,在大模型沒有成功之前,大家都只是在參與一場 " 賭局 ":

還有網友感嘆,兩年後會進化成什麼樣子簡直不敢想象。‍‍‍

我們扒了扒,發現這張圖原來來自于最近一篇爆火的綜述論文《在實踐中利用大模型的力量》:

論文不僅詳細闡述了現代大語言模型 LLM 這 5 年的發展歷程,還針對當下大夥兒最焦慮的 "如何選用 LLM" 這一關鍵問題,給出了詳細解答。

比如在自然語言理解任務中,微調模型通常是比 LLM 更好的選擇,不過 LLM 可以提供強大的泛化能力;而在知識型密集任務中,LLM 學到了更豐富的現實世界知識,所以比微調模型更适合。

所有的一切都被濃縮成了一張圖,簡直不要太清晰明了。

整體來說,論文分為三個部分,對大語言模型是如何發展的(模型實用指南)、大模型性能究竟受什麼影響(數據實用指南)、以及什麼場景用什麼類型的模型(NLP 任務實用指南)這幾個重點分别進行了詳細介紹。

我們逐個來看看。

"BERT 派 " 和 "GPT 派 " 二分天下

首先來解讀一下上面的 LLM 發展進化史,也就是論文中的《模型實用指南》。

根據論文,大模型發展主要可以分為兩類,作者們将它命名為"BERT 派 "和"GPT 派 ":

其中,"BERT 派 " 的特征是模型中有編碼器架構,具體分為編解碼器(Encoder-Decoder)和只有編碼器(Encoder-only)兩類架構;

"GPT 派 " 則主張扔掉編碼器,架構中只保留解碼器(Decoder-only)。

最初 "BERT 派 " 占據上風。但以 BERT 為代表的 Encoder-only 路線發展慘淡,相關研究到 2020 年就逐漸消失。

随後,GPT-3 的出現,徹底轉變了大語言模型領網域的風向,OpenAI 為代表的 "GPT 派 " 開始發展壯大,并成為如今 LLM 中發展最順利的一支。

根據這一想法,作者們将它做成了一張完整的樹狀圖,記錄了這些年大模型各大路線的發展興衰。

而這張圖也成為了谷歌和 OpenAI 在大模型這場戰争的 " 記錄圖 "。

顯然,谷歌在只有解碼器、只有編碼器和編解碼器三個方向都有不少布局,然而如今,大模型依舊是 " 一條路走到頭 "、只搞 Decoder-Only 的OpenAI占據上風:

△圖中有個 bug,ALBERT 是谷歌開發的

然而與此相對,我們也能發現,大模型整體呈現出 " 越來越封閉 " 的狀态,而這很大程度上要歸功于 "Open"AI 的表現。

不過在這些大廠裡,Meta 開源還是做得不錯的,只有幾十人的 HuggingFace 也成了重要力量:

當然,這并不意味着 "BERT 派 " 已經整體落于下風,畢竟編解碼器這個分支發展得也還不錯,包括清華 GLM 和谷歌 T5 都是這個領網域的代表開源模型。

未來這幾大 LLM 路線的發展速度是否會發生變化,還是一個未知數。

那麼,影響大模型性能的關鍵因素究竟是什麼呢?

如何判斷 LLM 性能好壞?

論文認為,影響 LLM 性能的關鍵因素依舊是數據。

什麼樣的數據?

根據 LLM 不同階段,數據類型也主要分為三種,包括預訓練數據、微調數據和測試 / 用戶數據。

數據類型不同,對模型的影響作用也并不一樣,甚至能直接決定大模型的最佳适用範圍,論文在《數據實用指南》有具體闡述。

首先是預訓練數據。它相當于大語言模型的 " 基底 ",既決定了 LLM 的 " 語言功底 ",又會極大影響 LLM 在下遊任務的表現。

一方面是 LLM 的 " 語言功底 ",指大語言模型對單詞的知識、語法、句法和語義的理解能力,以及上下文和生成連續文本的能力。

為了鍛煉 LLM 這部分能力,數據需要全面展現人類知識、語言和文化。

另一方面是 LLM 在下遊任務的表現,這部分對于如何選擇 LLM 應用思路起着至關重要的作用。

為了鍛煉 LLM 這部分能力,需要考慮預訓練數據的多樣性,尤其是完成特定下遊任務需要的 " 特定 " 數據,例如用社交媒體數據訓練出的 LLM 問答能力、用代碼數據訓練出的 LLM 邏輯和代碼填充能力等。

其次是微調數據。這部分數據往往被用于 " 調試 " 特定任務性能,具體又分為零标注數據、少量标注數據和大量标注數據。

其中,零标注數據通常被用于零次學習(Zero-Shot Learning)中,即希望大模型能完成之前沒見過的任務,具備更強的 " 推理能力 ";

少量标注數據主要用于引導大模型出現推理能力的同時,更好地提升某些少樣本任務的性能,類似方法有元學習和遷移學習等;

大量标注數據則用于提升特定任務性能,當然這種情況下,微調模型和 LLM 都可以考慮使用它。

最後是測試 / 用戶數據。這部分數據用于縮小模型訓練效果和用戶需求之間的差距,典型方法包括 RLHF,即人類反饋強化學習,能顯著增強 LLM 的泛化能力。

了解了三類數據對模型的不同影響,如何在實際任務中,選擇對應的模型呢?

LLM 還是微調模型?六大具體情況分析

接下來是本文重點部分:《NLP 任務實用指南》。

在實際下遊任務中,選擇直接用只經過預訓練的大模型 LLM,還是用在此基礎上經過特定數據集微調後的較小模型?

具體情況具體分析。

首先來看傳統自然語言理解(NLU)任務,包括文本分類、用于知識圖構建的命名實體識别(NER),以及自然語言推理 entailment prediction 等。

先上結論:

在這類任務中,微調模型通常是比 LLM 更好的選擇,不過 LLM 可以提供強大的泛化能力。

具體而言,在大多數自然語言理解任務中,如果這些任務帶有豐富的、注釋良好的數據,并且在測試集上包含很少的分布外示例,那麼微調模型性能更好。

不過對于不同的任務和數據集,兩者的差距還不完全一樣。

比如在文本分類中,LLM 大多只是略遜于微調模型;而在情緒分析上,LLM 和微調模型表現一樣好;毒性檢測上,則所有 LLM 都很差。

作者認為,這種結果一是跟 LLM 的指令或 prompt 設計有關,二是微調模型的能力上限确實還很高。

當然,也有 LLM 擅長的,一個是雜項文本分類,需要處理各種沒有明确關聯的内容,更接近真實世界;另一個是對抗性自然語言推理(ANLI)。LLM 對這種具有分布外和注釋稀疏的數據有良好的泛化能力,微調模型不行。

其次是生成任務,包括兩種:

第一種側重于對輸入文本進行加工轉換,比如寫摘要和機器翻譯;第二種是開放式生成類,根據用戶需求從頭生成文本,比如寫故事、寫代碼等。

這類任務要求模型理解能力好,以及有創造性,LLM 絕大多數情況都表現更好。

具體而言,對于寫摘要來說,盡管機器評估結果顯示 LLM 并沒有比微調更有優勢,但在人類評估上它赢了。

在機器翻譯上,盡管 LLM 平均性能略低于一些商業翻譯工具,但它尤其擅長将一些預訓練可能都沒見過的小語種翻譯成英語,比如羅馬尼亞語、羅曼什語、加利西亞語等等。

而開放式生成中,目前我們見到的很多作品都是基于沒有經過微調的 LLM 生成的,比如 GPT-4,其實力可見一斑,不用多說。

第三是知識密集型任務,這類任務強烈依賴背景知識、特定領網域專業知識或現實世界常識等,要解決它們早已超出簡單的模式識别或語法分析的範疇。

同樣,先說結論:

(1)LLM 因具有豐富的現實世界知識所以更擅長知識密集型任務。

(2)當需求與其所學知識不匹配時,或者面臨只需要上下文知識的任務時,LLM 會遇到困難。在這種情況下,微調模型可以頂上。

具體而言,在一般的知識密集型任務中,LLM 在幾乎所有數據集上都表現更好,這是數十億的訓練 token 和參數給它帶來的。

比如在谷歌提出的大模型新基準 Big bench 中的大多數任務中,它的性能優于人類的平均水平,某些情況下,甚至可以與人類的最佳性能相媲美,比如提供有關印度教神話的事實、從元素周期表中預測元素名稱等。

不過,Big bench 其中一些任務比如要求模型說出 ASCII 藝術表示的數字,或者是重新定義了一個公共符号,要求模型在原始含義和從定義中派生的含義之間進行選擇時,LLM 表現不如微調模型,甚至比随機猜測還要差。

這是因為這類任務需要的知識與現實世界無關。

需要注意的是,如果 " 閉卷任務變成開卷 ",給模型賦予檢索增強的能力,尺寸更小的微調模型的表現會比 LLM 更好。

在以上三類任務之外,作者還詳細分析了 LLM 擴展(Scaling)方面的知識,以及我們在上面提及任務之外的其他任務和現實世界真實任務上的選擇。

這裡就不一一展開了,奉上結論。

LLM 擴展:

當模型規模呈指數級增長時,LLM 将變得特别擅長算術推理和常識推理;

不過在許多情況下,由于人類理解還有限,擴大規模後的 LLM 性能并不會随之穩步提升。

其他未歸類的雜項任務:

在與 LLM 的預訓練目标和數據相去甚遠的任務中,微調模型或特定模型仍有空間;

LLM 在模仿人類、數據評注和生成方面非常出色,也可以用于 NLP 任務中的質量評估,并具有可解釋性的優點。

現實任務:

這類任務面臨的挑戰包括嘈雜 / 非結構化的輸入、用戶的請求可能包含多個隐含意圖等。

與微調模型相比,LLM 更适合處理這些場景。然而,在現實世界中評估模型的有效性仍然是一個懸而未決的問題。

最後,還有一些總體準則:

如果對成本敏感或有嚴格的延遲要求,考慮輕型的微調模型,而不是 LLM;

LLM 的零樣本方法無法從特定任務數據集進行 shortcut learning,但微調模型可以;

高度重視與 LLM 相關的安全問題,因為 LLM 會產生潛在有害或偏見輸出。

Over。

看完上面這些,是不是覺得條條框框有些不好記?

别急,如開頭所述,作者已經将它們全部濃縮成了一張思維導圖,照着它來分析就好了!(手動狗頭)

8 位華人作者

本文作者一共 8 位,全部是華人,分别來自亞馬遜、得克薩斯農工大學和萊斯大學,其中 5 人是共同一作。

共同一作楊靖鋒(Jingfeng Yang),目前是亞馬遜應用研究科學家,本科畢業于北大,碩士畢業于佐治亞理工學院,研究方向是 NLP 和機器學習。

此前,他還寫過一篇關于 GPT-3 和 GPT-3.5 的復現和使用指南,詳細解讀了為什麼關于 GPT-3 的復現大部分會失敗、以及使用 GPT-3.5 和 ChatGPT 的最佳方式。

共同一作靳弘業(Hongye Jin),目前是得克薩斯農工大學在讀博士生,本科畢業于北京大學,研究方向是機器學習等。

共同一作 Ruixiang Tang,萊斯大學計算機科學四年級博士生,本科畢業于清華大學自動化系,研究方向是可信任 AI,包括機器學習的可解釋性、公平性和魯棒性。

共同一作 Xiaotian Han,得克薩斯農工大學四年級博士生,本科畢業于山東大學通信工程,于北郵拿到計算機科學碩士學位,研究興趣是數據挖掘和機器學習。

共同一作 Qizhang Feng,得克薩斯農工大學博士生,本科畢業于華中科技大學,碩士畢業于杜克大學,研究方向是機器學習。

此外,亞馬遜應用研究科學家姜昊茗(Haoming Jiang)、亞馬遜應用科學主管 Bing Yin 和萊斯大學助理教授 Xia Hu 也參與了這次研究。

論文地址:

https://arxiv.org/abs/2304.13712

大模型實用指南(持續更新中):

https://github.com/Mooler0410/LLMsPracticalGuide

參考鏈接:

[ 1 ] https://twitter.com/indigo11/status/1651427761813327872

[ 2 ] https://twitter.com/JingfengY/status/1651404401817567234

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們