大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

1行代码改进大模型训练,Llama训练速度提升至1.47倍,全华人团队出品

2024-11-27 简体 HK SG TW

今天小编分享的科学经验:1行代码改进大模型训练,Llama训练速度提升至1.47倍,全华人团队出品,欢迎阅读。

只要改一行代码,就能让大模型训练效率提升至 1.47 倍。

拥有得州大学奥斯汀分校背景四名华人学者,提出了大模型训练优化器 Cautious Optimizers。

在提速的同时,Cautious 能够保证训练效果不出现损失,而且语言和视觉模型都适用。

该优化器以哈密顿量和下降动力学为理论基础,在加速的同时不影响收敛特性。

作者在 600M 到 1B 不同参数规模的 Llama 模型上进行了试验,获得了最高 47% 的加速率。

该研究相关代码已经开源,在 GitHub 上有使用方法的详细讲解。

一行代码改进大模型训练

Cautious Optimizers 在 PyTorch 当中增加的一行代码,核心思路是引入实现一种掩蔽机制,从而避免参数更新的方向与当前梯度方向相悖。

因为这两个方向一旦不一致,就有可能导致损失函数暂时增加,造成收敛速度的减缓。

不过作者并未在方向不一致的来源问题上过度纠结,而是引入了一种判断机制,在参数更新之前增加一步计算,从而过滤掉方向不一致的情形。

这也正是上面代码的直接作用。

△GD:梯度下降,GDM:带动量的梯度下降,C-GDM:本项目

具体来说,加入的两行代会对 u 和 g 两个向量求内积,u 向量对应优化器给出的参数更新方向,而 g 向量对应当前时刻的梯度方向。

作者设计了一个对齐掩码函数 ϕ,当 u 和 g 的内积小于 0 时(即方向不一致),ϕ 的输出为 0 向量;当内积大于等于 0 时,ϕ 的输出为全 1 向量。

而一旦 ϕ 为零向量时,w_t 计算式中含 u 的项也会变为零向量,导致此项更新被跳过。

这样就可以判断参数更新和梯度方向是否一致,如果不一致则不会用于参数更新,避免了训练过程中损失函数的回升。

训练效率提升 47%

为了评估 Cautious Optimizers 的具体效果,作者分别在语言模型 Llama 和视觉模型 MAE 上进行了试验。

作者选取了 60M、100M、350M 和 1B 四种参数规模的 Llama 模型,在 C4 语料库上进行预训练。

优化器选用了 AdamW 和 Lion,以及它们对应的 Cautious 版本 :C-AdamW 和 C-Lion,每个实验中进行 1 万步迭代。

结果 C-AdamW 和 C-Lion 在所有规模上都表现出明显的收敛加速效果。

尤其是在 1B 规模上,相比原版的 AdamW 和 Lion,它们的样本效率分别提高了 47% 和 28%,这表明 Cautious Optimizer 能有效减少训练震荡,使收敛更平稳高效。

并且,Cautious Optimizer 在所有情况下都取得了更低的困惑度,印证了其出色的泛化性能。

为了评估模型的实际效果,研究者在语句匹配、文本蕴含、情感分类等 6 个 GLUE 下游任务上测试了 AdamW 和 C-AdamW 优化后 1B 模型的表现 ,

结果表明,C-AdamW 的平均得分比 AdamW 高出 2%,在大多数任务上都取得了进步,说明 Cautious 跳过部分参数更新的方式不会引起模型性能下降。

对于视觉模型,作者以 ViT 为骨干网络,在 ImageNet-1K 数据集上预训练了 MAE 模型。

由于视觉任务的特殊性,训练过程采用了随机遮挡影像块并重建的范式,因此优化目标是最小化重建误差,而非通常的分类损失。

作者对比了 AdamW 和 C-AdamW 的表现,即训练 50 轮后的最终重建误差,结果 C-AdamW 的误差为 0.5926,低于 AdamW 的 0.6085。

一作曾在一周内复刻 o1

本项目是由四名华人学者共同打造的。

第一作者 Kaizhao Liang,是 AI 推理加速服务商 SambaNova 公司的一名高级 ML 工程师。

在 o1 模型发布一周内,该公司就推出了一个类似 o1 模型思考过程的开源平替,主要作者正是 Liang。

其他三名作者是得州大学奥斯汀分校 CS 助理教授 Qiang Liu,以及他的两名博士生,Lizhang Chen 和 Bo Liu。

此外,Liang 的人工智能硕士学位也是从该校获得。

论文地址:

https://arxiv.org/abs/2411.16085

GitHub:

https://github.com/kyleliang919/C-Optim

—  完  —

「MEET2025 智能未来大会」

火热报名中

定档 12 月 11 日!李开复博士、周志华教授、智源研究院王仲远院长都来量子位MEET2025 智能未来大会探讨行业破局之道了!

最新嘉宾阵容在此,观众报名通道已开启!欢迎来到 MEET 智能未来大会,期待与您一起预见智能科技新未来  

左右滑动查看最新嘉宾阵容

点这里关注我,记得标星哦~

一键三连「点赞」、「分享」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們