大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 互聯網

Scaling Law“暴力美學”真的失效了嗎?

2024-11-20 简体 HK SG TW

今天小編分享的互聯網經驗:Scaling Law“暴力美學”真的失效了嗎?,歡迎閱讀。

文 | 适道

近期,圍繞 Scaling Law 的讨論不絕于耳。

起因是,The information 在一篇文章指出,OpenAI 下一代旗艦模型 Orion(或稱 GPT-5)相較于現有模型,能力提升 " 有限 "(代碼能力甚至不如現有模型),遠不如 GPT-3 到 GPT-4 的躍升,而且 Orion 在數據中心的運行成本更高。為此,OpenAI 不得不連夜轉變策略。

如果其所言非虛,就不會只有 OpenAI 一家被困擾。

果不其然,Google 也 " 出事 " 了。其下一代 Gemini 模型原本應該是一次重大更新,但有員工透露:近期在大幅增加資源投入後,模型性能未達到領導層預期,團隊連夜調整策略。

與此同時,Anthropic 被曝已暫停推進 Opus 3.5 的工作,官網還撤下了 " 即将推出 " 字樣。

" 三巨頭 " 接連碰壁,讓人聯想到:Scaling Law 可能失效了?

Scaling Law,即尺度定律,稱得上 AI 行業的大模型第一性原理。

2020 年,OpenAI 在論文 Scaling Laws for Neural Language Models 提出該定律。其核心的觀點是,影響大模型性能的三大要素:計算量、數據集大小、模型參數量。當不受其他兩個因素制約時,模型性能與每個單獨的因素都存在幂律關系。

只要 Scaling Law 成立,意味着 " 更大更好 "" 大力出奇迹的暴力美學 " ——大模型的能力可以通過堆更多的算力、搞更多的參數,喂更多的數據得到大幅提升。

如今,當模型規模和成本大幅增加,但實際性能卻提升 " 有限 " 時,Scaling Law 神話是否會被終結?

正方:Scaling Law 神話終結

作為 Scaling Law 的早期倡導者之一,前 OpenAI 首席科學家 Ilya Sutskever 表示,擴展訓練的結果,已經趨于平穩。即,傳統的無監督 Pre-training 已達極限。他說,2010 年代是 Scaling 的時代,現在我們再次回到發現奇迹的時代。每個人都在尋找下一個奇迹。現在重要的是擴大 " 正确 " 的規模。

何謂 " 正确 "?Ilya 表示,SSI 正在研究一種全新的替代方法,來擴展預訓練。

雖然他沒有透露新方法是什麼,但根據 OpenAI 和 Google 的嘗試,或許可以窺探一二。

OpenAI 的研究人員開發推理模型(reasoning models)等新技術,用于彌補傳統訓練方法的局限性。

Google 也效仿這一思路。近幾周,DeepMind 在 Gemini 團隊内組建了一個由首席研究科學家 Jack Rae 和前 Character.AI 聯創 Noam Shazeer 領導的小組,專注于開發類似能力。

此外,DeepMind 團隊還在手動優化模型性能,包括調整超參數(hyperparameters)等變量。這些超參數決定了模型處理信息的方式,例如,迅速在訓練數據中建立概念或模式之間的聯系。研究人員通過 " 模型調優 " 測試不同的超參數,以确定哪些變量将帶來最佳效果。

今年 6 月,普林斯頓大學計算機科學教授 Arvind Narayanan 與其博士生 Sayash Kapoor 發表了一篇文章 AI scaling myths。文章指出,Scaling" 崇拜論 " 是建立在一系列誤解之上。

第一,什麼是 " 更好的 " 模型?具有 " 湧現能力 " 的模型。

Scaling 僅僅将困惑度(perplexity)下降進行了量化,即模型能夠預測下一個單詞。然而,對最終的用戶而言,困惑度幾乎毫無意義——真正重要的是模型規模增長時,模型呈現出的 " 湧現能力 ",即模型随着大小增加而獲得新能力的趨勢。

問題在于," 湧現能力 " 不受任何類似定律的支配。

為什麼 " 湧現能力 " 不能無限持續?這一問題直指關于 LLM 能力的核心争議:LLM 究竟能否進行外推,還是只會學習訓練數據中已有的任務?現有證據尚不完整,不同研究者各執一詞。但 Arvind Narayanan 團隊傾向于懷疑态度。在一些專門測試 LLM 解決新任務能力的基準測試中,其表現往往較差。

如果 LLM 無法超越訓練數據中的内容,就會進入每一個傳統的機器學習模型最終都會進入的平台期。

第二,更多的數據從哪裡來?

有人認為,新的數據源(例如将 YouTube 轉錄為文本)可以增加一兩個數量級的可用數據量。确實,YouTube 包含約 1500 億分鍾的視頻内容。然而,考慮到其中大部分視頻缺乏可用的音頻(例如音樂、靜止影像或遊戲畫面),經過去重、質量過濾後,實際可用的訓練數據遠少于 Llama 3 所使用的 15 萬億 tokens。

退一步說,關于 " 數據耗盡 " 的讨論并不合理。訓練數據永遠有,只是成本越來越高,比如版權、監管等等。

對于 LLM 而言,我們可能還有幾個數量級的擴展空間,也可能擴展已經結束了。如今,研究的重點已從構建更大數據集,轉向提高訓練數據的質量。通過精心的數據清理和過濾,可以用更小的數據集構建出同樣強大的模型。

第三,合成數據不是萬能魔藥。

還有一個觀點,利用現有模型生成訓練數據。

這個觀點同樣存在誤區——開發者并未(也無法)利用合成數據顯著增加訓練數據的總量。

一篇論文詳細列出了合成數據在訓練中的用途——主要集中在彌補特定領網域的不足,例如數學、編程、低資源語言的優化。同樣,英偉達最近推出的 Nemotron 340B 模型,專注于生成合成數據,是将對齊作為其主要用途。雖然它也有一些其他用途,但取代現有預訓練數據源并不在其中。

換句話說,盲目靠生成大量合成數據,無法達到高質量人類數據所具備的效果。

盡管如此,合成訓練數據在某些場景中取得了巨大成功,例如 2016 年 AlphaGo 擊敗圍棋世界冠軍,以及其後續版本 AlphaGo Zero 和 AlphaZero 的表現。這些系統通過自我對弈學習,後兩者甚至能自己生成高質量棋局。

自我對弈是 " 系統 2--> 系統 1 蒸餾 " 的經典案例,即通過一個緩慢且昂貴的 " 系統 2" 生成訓練數據,用于訓練快速且廉價的 " 系統 1" 模型。

這種方法在圍棋這樣完全封閉的環境中表現出色,将其推廣到遊戲之外的領網域仍然是一個有價值的研究方向。在某些重要領網域(如代碼生成)中,這一策略或許可以發揮作用。然而,我們不能指望在更開放的任務(如語言翻譯)上實現類似的無限自我改進。可以預見,通過自我對弈實現大幅提升的領網域将是特例,而非普遍規律。

反方:Scaling Law 沒有牆

前方 The information 擾亂軍心,後方 Sam Altman 在 X 平台上發言—— there is no wall。

近期,他在 Reddit 的 Ask Me Anything 上也表示,OpenAI 将在今年晚些時候發布 " 非常好的版本 "。

只不過,鑑于 " 草莓 " 炒作的影響、Ilya Sutskever 的威望,以及 OpenAI 的當前表現,Altman 的話難免有 " 挽尊 " 之嫌。

Suleyman 在近期采訪中表示:模型的規模既在變大,也在變小,這種趨勢會持續下去。去年開始流行一種新方法,稱為蒸餾。這類方法利用大型、高成本模型來訓練小型模型。這種監督效果相當不錯,目前已有充分的證據支持這一點。因此,規模仍然是這場競争中的關鍵因素,未來還有很大的發展空間,數據量也将持續增長。至少在接下來的兩三年内,Scaling Law 在提供超預期表現方面的進度不會有任何放緩。

今年 10 月 21 日,在微軟 AI 之旅倫敦站活動上,Satya Nadella 在演講中表示:Scaling Law 是經驗觀察所得,但它被我們稱作定律,并且一直有效。

今年 7 月,微軟首席技術官 Kevin Scott 在接受紅杉資本合夥人采訪時表示:盡管其他人可能這樣想,但是我們在規模化上并沒有遇到邊際收益遞減的情況。

11 月 14 日,前谷歌 CEO Eric Schmidt 在播客中表示:沒有證據表明 Scaling Law 已經開始停止。他預測在未來五年,人工智能系統的能力将是現在的 100 倍,能夠在物理和數學領網域進行推理。

Bindu Reddy 表示,所謂的 AI 減速實際上無關緊要。主要原因在于 AI 技術發展的潛力已經幾乎在各類基準測試中得以體現。當達到 100/100 的高分時,就很難再找到新的突破方向。因此,AI 市場的 " 放緩 " 更多地反映了技術成熟度,而非創新能力的不足。(你信嗎?)

Scaling Law 2.0:token 越多,精度也要越高

無論各位如何 " 挽尊 ",都掩蓋不了大模型 " 減速 " 的事實——感受不到當初的驚豔。

或許,還有其他辦法。

近期,來自哈佛大學、斯坦福大學、麻省理工等機構的合作團隊發表了一篇題為 Scaling Laws of Precision 的論文,引發瘋狂讨論。

研究提出:精度在模型擴展規律中比之前認為的更加重要,可以顯著影響語言模型的性能。在以往描述模型性能随參數量和訓練數據量變化的擴展規律,基本忽略了精度這一因素。随着模型規模的不斷擴大,低精度的量化或将不再有效。

首先,通過實驗,研究人員制訂了新的精度縮放定律。另一項重要發現則提出了預訓練期間計算的最優精度。根據該研究,當同時優化參數數量、數據和精度時,這一精度通常與計算預算無關。

其次,普遍采用的 16 位模型訓練法并非最優,因為很多位是多餘的。然而,使用 4 位進行訓練則需要不成比例地增加模型大小,以維持損失縮放。研究人員的計算表明,對于較大的模型而言,7-8 位是計算最優的。

當模型大小從一開始就固定時,情況就會發生變化:更大且更好的模型應以更高的精度進行訓練——例如,使用 16 位的 Llama 3.1 8B 模型。實際的計算節省還取決于硬體對更低精度的支持。此外,這裡研究的模型(參數最多達 17 億個)尚未在最大的實際規模上進行測試。不過,這些一般趨勢仍然适用于更大的模型。

CMU 教授 Tim Dettmers 表示,這是長久以來最重要的一篇論文。他認為,人工智能的大部分進步都來自計算能力的提升,而(最近)這主要依賴于低精度路線的加速(32- > 16 - > 8 位)。現在看來,這一趨勢即将結束。再加上摩爾定律的物理限制,大模型的大規模擴展可以說要到頭了。他預計,随着低精度帶來的效率提升達到極限,将出現從純規模擴張向專用模型和人本應用的轉變。

AGI 路漫漫。不過,大家無需灰心。

退一萬步,正如 OpenAI 研究人員 Steven Heidel 所言,就算現在 LLM 停滞了,在當今模型的基礎上,還有至少十年的產品等着你去開發。

是不是又幹勁十足了。

參考:

1、Scaling Laws 終結,量化無用,AI 大佬都在審視這篇論文,機器之心

2、新 Scaling Law 浮出水面!OpenAI 内部員工爆料下一代模型 Orion 性能堪憂;量化 Llama3 困難,這些都有了新解,51CTO 技術棧  

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們