大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

Scaling Law百度最早提出?!OpenAI/Claude都受它啟發,Ilya出現在致謝名單中

2024-11-27 简体 HK SG TW

今天小編分享的科學經驗:Scaling Law百度最早提出?!OpenAI/Claude都受它啟發,Ilya出現在致謝名單中,歡迎閱讀。

什麼?Scaling Law 最早是百度 2017 年提的?!

Meta 研究員翻出經典論文:

大多數人可能不知道,Scaling law 原始研究來自 2017 年的百度,而非三年後(2020 年)的 OpenAI。

此研究由吳恩達主持,來自百度矽谷人工智能實驗室 ( SVAIL ) 系統團隊。

他們探讨了深度學習中訓練集大小、計算規模和模型精度之間的關系,并且通過大規模實證研究揭示了深度學習泛化誤差和模型大小的縮放規律,還在影像和音頻上進行了測試。

只不過他們使用的是 LSTM,而不是 Transformer;也沒有将他們的發現命名為「Law」。

再回頭看,其中一位作者 Gregory Diamos 給自己當年在百度的介紹還是LLM Scaling Law Researcher。

又有一網友發現,OpenAI 論文還引用了 2019 年這位作者 Gregory Diamos 等人的調查。但卻不知道他們 2017 年就有了這麼一項工作。

網友們紛紛表示這篇論文非常值得一讀,而且完全被低估。

來趕緊看看這篇論文。

深度學習 Scaling 是可預測的

在深度學習領網域,随着模型架構的不斷探索、訓練數據集的不斷增大以及計算能力的不斷提升,模型的性能也在不斷提高。

然而,對于訓練集大小、計算規模和模型精度之間的具體關系,一直缺乏深入的理解。

本文通過大規模的實證研究,對多個機器學習領網域(如機器翻譯、語言建模、影像分類和語音識别)進行了測試,發現了一些規律:

泛化誤差(模型在新數據上的表現誤差)與訓練集大小呈現幂律關系,即随着訓練集的增大,泛化誤差會以一定的幂次下降。

模型大小與與數據大小也存在 Scaling(縮放)關系,通常模型大小的增長速度比數據大小的增長速度慢。

具體來說,結合以往工作,團隊将注意力集中在準确估計學習曲線和模型大小的縮放趨勢上。

按照一般測量方法,是選擇最先進的 SOTA 模型,并在訓練集的更大子集(碎片)上訓練這些模型的 " 超參數縮減 " 版本,以觀察模型的準确性如何随着訓練集的大小而增長。

因此針對這四個領網域,機器翻譯、語言建模、影像分類和語音識别,找到了他們在大型數據集上顯示出 SOTA 泛化誤差的模型架構。

這裡的 " 大型數據集 " 是指規模可以縮小 2-3 個數量級,但仍足以進行有價值的模型架構研究的訓練集。他們為某些 ML 領網域選擇了一種以上的模型架構,以比較它們的擴展行為。

機器翻譯

團隊注意到,随着訓練集規模的增大,優化變得更加困難,而且模型會出現容量不足的情況,因此經驗誤差會偏離幂律趨勢。

詞語言模型

這一結果表明,最佳拟合模型随訓練分片大小呈次線性增長。

字元級語言模型

為了測試字元級語言建模,他們訓練了深度為 10 的循環高速公路網絡(RHN),結果發現該網絡在十億單詞數據集上能達到最先進的(SOTA)準确率。

影像分類。

影像分類同樣呈現出幂律學習曲線和模型大小的縮放關系。并且還表明,在非常小的訓練集上,準确率會在接近随機猜測的水平上趨于平穩。

語音識别。

團隊訓練了一系列跨度較大的模型尺寸,所以針對每個訓練數據大小得出的模型尺寸縮放結果,其意義不像在語言模型(LMs)或影像分類中那麼明顯。

随着數據量的增加,大多數模型會經歷幂律泛化改進,直至數據量接近其有效容量。在這種情況下,參數為 170 萬的模型的準确率在大約 170 小時的音頻數據時開始趨于平穩,而參數為 600 萬的模型在大約 860 小時的音頻數據時趨于平穩(也就是說,大約是前者的 5 倍,這與模型尺寸的差異情況類似)。更大的模型(例如,參數為 8700 萬的模型)在更大的數據集規模下,其泛化誤差也更接近最佳拟合趨勢。

最後對于這一發現,他們表示,這些比例關系對深度學習的研究、實踐和系統都有重要影響。它們可以幫助模型調試、設定準确度目标和數據集增長決策,還可以指導計算系統設計,并強調持續計算擴展的重要性。

博客致謝中還有 Ilya 的名字

此次研究主要是由當年吳恩達主持下,百度矽谷人工智能實驗室 ( SVAIL ) 系統團隊。

當時的一群合著者們已經各自去到各個機構實驗室、大廠繼續從事大模型相關的研究。

在當年博客致謝中,還出現了 Ilya 的名字,感謝他們參與了這一讨論。

兩年後,也就是 2019 年,其中一位作者 Gregory Diamos 又帶領團隊探讨了深度學習的計算挑戰。

後面的 OpenAI 論文正是引用了這篇論文的調查讨論了 Scaling Law。

值得一提的是,Anthropic CEODario Amodei在百度研究院吳恩達團隊工作過,他對 Scaling Law 的第一印象也是那時研究語音模型產生的。

Amodei 剛開始研究語音神經網絡時有一種 " 新手撞大運 " 的感覺,嘗試把模型和數據規模同時擴大,發現模型性能随着規模的增加而不斷提升。

最初,他以為這只是語音識别系統的特例。但到了 2017 年,看到 GPT-1 的結果後意識到這種現象在語言模型上同樣适用。

當年(2015 年)他一作發表的論文 Deep Speech,合著者中這位 Sharan Narang 正是兩年後這篇論文的主要作者之一。如今後者先後去到了谷歌擔任 PaLM 項目 TL 大模型負責人,然後現在是 Meta 當研究員。

如今這一 " 冷知識 " 再次出現在大家的視野,讓不少人回溯并重溫。

這當中還有人進一步表示:真正的 OG 論文使用了seq2seq LSTM,并且确定了參數計算曲線。

當年的一作正是 Ilya Sutskever。

參考鏈接:

[ 1 ] https://arxiv.org/abs/1512.02595   [ 2 ] https://arxiv.org/abs/1909.01736

[ 3 ] https://research.baidu.com/Blog/index-view?id=89

[ 4 ] https://www.linkedin.com/in/gregory-diamos-1a8b9083/   [ 5 ] https://www.linkedin.com/in/dario-amodei-3934934/

[ 6 ] https://x.com/jxmnop/status/1861473014673797411?s=46&t=iTysI4vQLQqCNJjSmBODPw

—  完  —

「MEET2025 智能未來大會」

火熱報名中

定檔 12 月 11 日!李開復博士、周志華教授、智源研究院王仲遠院長都來量子位MEET2025 智能未來大會探讨行業破局之道了!

最新嘉賓陣容在此,觀眾報名通道已開啟!歡迎來到 MEET 智能未來大會,期待與您一起預見智能科技新未來  

左右滑動查看最新嘉賓陣容

點這裡關注我,記得标星哦~

一鍵三連「點贊」、「分享」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們