今天小编分享的科学经验:1行代码改进大模型训练,Llama训练速度提升至1.47倍,全华人团队出品,欢迎阅读。
只要改一行代码,就能让大模型训练效率提升至 1.47 倍。
拥有得州大学奥斯汀分校背景四名华人学者,提出了大模型训练优化器 Cautious Optimizers。
在提速的同时,Cautious 能够保证训练效果不出现损失,而且语言和视觉模型都适用。
该优化器以哈密顿量和下降动力学为理论基础,在加速的同时不影响收敛特性。
作者在 600M 到 1B 不同参数规模的 Llama 模型上进行了试验,获得了最高 47% 的加速率。
该研究相关代码已经开源,在 GitHub 上有使用方法的详细讲解。
一行代码改进大模型训练
Cautious Optimizers 在 PyTorch 当中增加的一行代码,核心思路是引入实现一种掩蔽机制,从而避免参数更新的方向与当前梯度方向相悖。
因为这两个方向一旦不一致,就有可能导致损失函数暂时增加,造成收敛速度的减缓。
不过作者并未在方向不一致的来源问题上过度纠结,而是引入了一种判断机制,在参数更新之前增加一步计算,从而过滤掉方向不一致的情形。
这也正是上面代码的直接作用。
△GD:梯度下降,GDM:带动量的梯度下降,C-GDM:本项目
具体来说,加入的两行代会对 u 和 g 两个向量求内积,u 向量对应优化器给出的参数更新方向,而 g 向量对应当前时刻的梯度方向。
作者设计了一个对齐掩码函数 ϕ,当 u 和 g 的内积小于 0 时(即方向不一致),ϕ 的输出为 0 向量;当内积大于等于 0 时,ϕ 的输出为全 1 向量。
而一旦 ϕ 为零向量时,w_t 计算式中含 u 的项也会变为零向量,导致此项更新被跳过。
这样就可以判断参数更新和梯度方向是否一致,如果不一致则不会用于参数更新,避免了训练过程中损失函数的回升。
训练效率提升 47%
为了评估 Cautious Optimizers 的具体效果,作者分别在语言模型 Llama 和视觉模型 MAE 上进行了试验。
作者选取了 60M、100M、350M 和 1B 四种参数规模的 Llama 模型,在 C4 语料库上进行预训练。
优化器选用了 AdamW 和 Lion,以及它们对应的 Cautious 版本 :C-AdamW 和 C-Lion,每个实验中进行 1 万步迭代。
结果 C-AdamW 和 C-Lion 在所有规模上都表现出明显的收敛加速效果。
尤其是在 1B 规模上,相比原版的 AdamW 和 Lion,它们的样本效率分别提高了 47% 和 28%,这表明 Cautious Optimizer 能有效减少训练震荡,使收敛更平稳高效。
并且,Cautious Optimizer 在所有情况下都取得了更低的困惑度,印证了其出色的泛化性能。
为了评估模型的实际效果,研究者在语句匹配、文本蕴含、情感分类等 6 个 GLUE 下游任务上测试了 AdamW 和 C-AdamW 优化后 1B 模型的表现 ,
结果表明,C-AdamW 的平均得分比 AdamW 高出 2%,在大多数任务上都取得了进步,说明 Cautious 跳过部分参数更新的方式不会引起模型性能下降。
对于视觉模型,作者以 ViT 为骨干网络,在 ImageNet-1K 数据集上预训练了 MAE 模型。
由于视觉任务的特殊性,训练过程采用了随机遮挡影像块并重建的范式,因此优化目标是最小化重建误差,而非通常的分类损失。
作者对比了 AdamW 和 C-AdamW 的表现,即训练 50 轮后的最终重建误差,结果 C-AdamW 的误差为 0.5926,低于 AdamW 的 0.6085。
一作曾在一周内复刻 o1
本项目是由四名华人学者共同打造的。
第一作者 Kaizhao Liang,是 AI 推理加速服务商 SambaNova 公司的一名高级 ML 工程师。
在 o1 模型发布一周内,该公司就推出了一个类似 o1 模型思考过程的开源平替,主要作者正是 Liang。
其他三名作者是得州大学奥斯汀分校 CS 助理教授 Qiang Liu,以及他的两名博士生,Lizhang Chen 和 Bo Liu。
此外,Liang 的人工智能硕士学位也是从该校获得。
论文地址:
https://arxiv.org/abs/2411.16085
GitHub:
https://github.com/kyleliang919/C-Optim
— 完 —
「MEET2025 智能未来大会」
火热报名中
定档 12 月 11 日!李开复博士、周志华教授、智源研究院王仲远院长都来量子位MEET2025 智能未来大会探讨行业破局之道了!
最新嘉宾阵容在此,观众报名通道已开启!欢迎来到 MEET 智能未来大会,期待与您一起预见智能科技新未来
左右滑动查看最新嘉宾阵容
点这里关注我,记得标星哦~
一键三连「点赞」、「分享」和「在看」
科技前沿进展日日相见 ~
>