大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

今日最热论文:Scaling Law后继乏力,量化也不管用,AI大佬齐刷刷附议

2024-11-15 简体 HK SG TW

今天小编分享的科学经验:今日最热论文:Scaling Law后继乏力,量化也不管用,AI大佬齐刷刷附议,欢迎阅读。

几十万人关注,一发表即被行业大佬评为 " 这是很长时间以来最重要的论文 "。

哈佛、斯坦福、MIT 等团队的一项研究表明:训练的 token 越多,需要的精度就越高。

例如,Llama-3 在不同数据量下(圆形 8B、三角形 70B、星星 405B),随着数据集大小的增加,计算最优的精度也会增加。

换句话就是,对于大规模的训练任务,低精度的量化可能不再足够有效。

按照结论,对 Scaling Law 的遵循意味着我们需要保持更高精度,然而一直以来,人们通常会选择量化(将连续值或多精度值转换为较低精度)来节省计算资源。

一旦结论成立,GPU 的设计和功能可能也需要相应调整,因为传统上,GPU 的性能提升部分依赖于对低精度计算的优化。

正如艾伦 AI 研究所科学家所指出的:

这是很长时间以来最重要的论文。它用强有力的证据表明,我们正在达到量化的极限。论文得出的结论对整个领網域以及 GPU 的未来有着广泛的影响。

与此同时,研究得出了两个重要结论:

如果量化是在后训练阶段进行的,那么更多的预训练数据最终可能反而有害;

在高(BF16)和下一代(FP4)精度下进行预训练可能都是次优的设计选择;

这也引来 OpenAI 员工大赞特赞:

将非常酷地看到如何 SOTA 量化方案(mxfp,Pw ≠ Pkv ≠ Pa 等)推动前沿;在我看来,将一半的计算预算用于一次大规模运行以检查模型是否适用于大模型是值得的。

提出 " 精度感知 "Scaling Laws

一上来,研究就指出,当前扩展的焦点主要放在了模型规模、数据量上,忽视了对精度的关注。

而事实上,随着模型进一步应用落地,低精度量化正在成为新的范式。

深度学习正朝着更低精度的方向发展。

当前的前沿模型(如 Llama-3 系列)在 BF16 中进行训练,并且大家都在努力将预训练范式转移到 FP8,甚至下一代硬體将支持 FP4;

因此,研究想要搞清:

精度、参数和数据之间的权衡是什么?它们在预训练和推理方面如何比较?

具体而言,团队研究了在预训练和后训练 ,随着数据和参数的变化,精度对损失的影响如何变化。

同时,为了精确测量相关变化,团队专门提出了" 精度感知(precision-aware)"的 Scaling Laws,以预测和优化不同精度下的语言模型训练和推理。

先说结论。下图展示了两个主要的实验结果:

在较低精度下训练模型(例如 INT3 和 INT4)会导致较高的损失;

在推理时使用较低精度会导致性能下降;

具体而言,左侧图表展示了在不同精度下训练模型的效果。

其中纵轴表示最终的验证损失(Val Loss),横轴表示不同的模型规模(Model Size),从 30M 到 220M 参数。不同的颜色代表了不同的训练精度,从 INT3 到 INT6,以及没有后训练量化(No PTQ)。

研究发现,在较低精度下训练模型(例如 INT3 和 INT4)会导致较高的损失,而随着精度的提高,损失会减少;同时,随着模型规模的增加,损失也会减少。

另外,右侧图表展示了在不同精度下进行推理时的模型性能。

其中横轴表示了推理时的权重精度(Final Val Loss)。

结果显示,在推理时使用较低精度(例如 INT3 和 INT4)会导致性能下降,即损失的增加;而随着精度的提高,损失会逐渐减少,接近没有进行后训练量化的模型性能。

上述发现也解释了为什么 Llama-3 难以量化?

要知道,Llama-3 发布后,它因 " 超 15T Token 数据上的超大规模预训练 " 而闻名,不过人们后来发现,Llama-3 低比特量化性能下降显著。

这可能正如研究提到的,模型在预训练阶段看到的数据越多,对量化的敏感性就越高。

与此同时,研究还发现了:

后训练量化(PTQ,即训练完成后对模型进行量化)引起的性能退化随着模型训练数据量的增加而增加。

换句话说,在大量数据上训练的模型,如果在推理时进行低精度的 PTQ,可能会导致性能显著下降。

接下来,团队提出利用 " 精度感知 "Scaling Laws 来预测模型在不同精度下的性能,并指出:

在较低精度下进行训练可以减少模型的 " 有效参数数量(effective parameter count)",从而预测在低精度下训练和后训练量化产生的额外损失。

其中包含两个关键公式,它们构成了一个统一的理论框架,用于预测不同精度下训练和推理的性能。

训练后量化(PTQ)引起的损失退化预测公式:

考虑训练精度的模型损失预测公式:

统一预训练与后训练的精度预测

BTW,研究最终将后训练量化和预训练量化的影响统一起来,以此实现:

预测在任何精度组合下的预训练和后训练损失

相关公式如下:

同时,为了验证预测的准确性,研究对超过 465 次预训练运行的数据进行拟合,并在高达 1.7 亿参数、训练了高达 260 亿个 token 的模型上进行了验证。

并在过程中提出了以下几点建议:

需要衡量精度与性能,在资源有限的情况下,可以考虑使用较低的精度来训练更大的模型;

需要衡量精度与参数,在低精度下训练时,可以考虑增加模型的规模(即参数数量),因为研究表明这样做可能是计算上最优的;

需要优化数据量,通过数据增强、选择性数据采样等技术提高数据使用率,并在预训练时应避免使用过多的数据,特别是在模型需要后期量化的情况下。

不过,这项研究目前也存在一定局限性,比如作者自述使用了一个固定的模型架构来控制变量。

这意味着,相关结果可能不适用于经过架构调整的低精度训练模型,因为架构的变化可能会影响模型对精度变化的敏感性。

最后,有网友还想得更远。提出一旦量化失败,还有 3 条路可以考虑:

扩展数据中心

转向更小的专业模型

知识蒸馏

你怎么看?

论文:

https://arxiv.org/abs/2411.04330

参考链接:

[ 1 ] https://x.com/Tim_Dettmers/status/1856338240099221674

[ 2 ] https://x.com/Tanishq97836660/status/1856045600355352753

熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們