大模型训练成本降低近一半！新加坡国立大学最新优化器已投入使用 - 大酷樂

今天小编分享的科学经验：大模型训练成本降低近一半！新加坡国立大学最新优化器已投入使用，欢迎阅读。

优化器在大语言模型的训练中占据了大量内存资源。

现在有一种新的优化方式，在性能保持不变的情况下将内存消耗降低了一半。

该成果由新加坡国立大学打造，在 ACL 会议上获得了杰出论文奖，并已经投入了实际应用。

随着大语言模型不断增加的参数量，训练时的内存消耗问题更为严峻。

研究团队提出了 CAME 优化器，在减少内存消耗的同时，拥有与 Adam 相同的性能。

CAME 优化器在多个常用的大规模语言模型的预训练上取得了相同甚至超越 Adam 优化器的训练表现，并对大 batch 预训练场景显示出更强的鲁棒性。

进一步地，通过 CAME 优化器训练大语言模型，能够大幅度降低大模型训练的成本。

实现方法

CAME 优化器基于 Adafactor 优化器改进而来，后者在大规模语言模型的预训练任务中往往带来训练性能的损失。

Adafactor 中的非负矩阵分解操作在深度神经网络的训练中不可避免地会产生错误，对这些错误的修正就是性能损失的来源。

而通过对比发现，当起始数值 mt 和当前数值 t 相差较小时，mt 的置信度更高。

受这一点启发，团队提出了一种新的优化算法。

下图中的蓝色部分就是 CAME 相比 Adafactor 增加的部分。

CAME 优化器基于模型更新的置信度进行更新量修正，同时对引入的置信度矩阵进行非负矩阵分解操作。

最终，CAME 成功以 Adafactor 的消耗得到了 Adam 的效果。

相同效果仅消耗一半资源

团队使用 CAME 分别训练了 BERT、GPT-2 和 T5 模型。

此前常用的 Adam（效果更优）和 Adafactor（消耗更低）是衡量 CAME 表现的参照。

其中，在训练 BERT 的过程中，CAME 仅用一半的步数就达到了和 Adafaactor 相当的精度。

△左侧为 8K 规模，右侧为 32K 规模

对于 GPT-2，从损失和困惑度两个角度看，CAME 的表现和 Adam 十分接近。

在 T5 模型的训练中，CAME 也呈现出了相似的结果。

而对于模型的微调，CAME 在精确度上的表现也不输于基准。

资源消耗方面，在使用 PyTorch 训练 4B 数据量的 BERT 时，CAME 消耗的内存资源比基准减少了近一半。

团队简介

新加坡国立大学 HPC-AI 实验室是尤洋教授领导的高性能计算与人工智能实验室。

实验室致力于高性能计算、机器学习系统和分布式并行计算的研究和创新，并推动在大规模语言模型等领網域的应用。

实验室负责人尤洋是新加坡国立大学计算机系的校长青年教授 ( Presidential Young Professor ) 。

尤洋在 2021 年被选入福布斯 30 岁以下精英榜 ( 亚洲 ) 并获得 IEEE-CS 超算杰出新人奖，当前的研究重点是大规模深度学习训练算法的分布式优化。

本文第一作者罗旸是该实验室的在读硕士生，他当前研究重点为大模型训练的稳定性以及高效训练。

论文地址：

https://arxiv.org/abs/2307.02047

GitHub 项目页：

https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/CAME

熱門排行

吴千语为老公庆生，施伯雄高兴过头又謝飛揚 | 2025-02-24
教育部：不再使用“函授”“业余”的袁曼雁 | 2025-02-24
吴清：优先支持开展关键核心技术突破集玲琳 | 2025-02-24
梁文锋亲自挂名，DeepSeek 最新论文賁芳蕤 | 2025-02-24
欧洲领导人紧急开会！“必要时派遣部佼昌翰 | 2025-02-24
免谈世体：皇马询问亚马尔情况，经纪人嬴覓晴 | 2025-02-24
《演员请就位3》：吴镇宇把母子演成郜萌運 | 2025-02-24
白云山再曝丑闻旗下公司涉利益输送佼昌翰 | 2025-02-24
东体：综合各方意见和结合队伍表现，足幸聽楓 | 2025-02-24
76人的下一步很明确：摆烂保选秀权甄正浩 | 2025-02-24
高露现身上海虹桥机场黑色外套点缀亮色爱心装饰俏皮亮眼惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：处理器更新为天玑9200+ 安卓最强芯袁曼雁 | 2023-05-05
“懒癌”发病率上升，定期体检别忽视幸聽楓 | 2023-05-02
宋慧乔获百想视后韩素希发图手动加爱心表情庆祝賁芳蕤 | 2023-05-02
十年了，他们终于要HE！惠惠君 | 2023-05-07
曹操墓，里面都有啥？衛青柏 | 2023-05-02
中央部署经济工作，释放5大信号郜萌運 | 2023-05-02
陈自瑶抱病为爱女做蛋糕庆生，王浩信点赞没露面賁芳蕤 | 2023-05-02
高德上线手机弯道会车预警功能習又夏 | 2023-05-02
高端国产车：军车血统，目前电动车越野的“天花板”？謝飛揚 | 2023-05-02
等比例长大的童星，李兰迪算一个郟君昊 | 2023-05-02
这些被抓来做实验的流浪狗，最终拯救了无数糖尿病人集玲琳 | 2023-05-02
《云襄传》终于抬上来啦，男O女A让人好上头！集玲琳 | 2023-05-02
21家A股游戏公司2022年收入651亿今年“游戏+AI”能否逆风翻盘？衛青柏 | 2023-05-04
信用风险释放趋缓，结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望袁曼雁 | 2023-05-02
与周立波夫妇闹纠纷成老赖，唐爽被司法拘留15日寸飛蘭 | 2023-05-05
普京签署总统令，批准对俄刑法典相关法条的修正案集玲琳 | 2023-05-02
中银证券给予南京银行增持评级袁曼雁 | 2023-05-03
解除资格！停止一切合作佼昌翰 | 2023-05-02
前董事长被免，天山生物全面进入“中植系”时代？股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
3699起联想小新mini主机上架 13代酷睿标压处理器習又夏 | 2023-05-05
狂吼11次“让一下”！交警咆哮开道嘶吼到吐寸飛蘭 | 2023-05-03
疯成这样，怎么还能被全网吹捧？郜萌運 | 2023-05-02
摩根大通收购美国第一共和银行謝飛揚 | 2023-05-02
台剧赢麻了，又来一部8.9 衛青柏 | 2023-05-02
下降45分，上涨35分！34所自划线院校复试分数线涨幅汇总袁曼雁 | 2023-05-07
事关农村土地承包和农民权益，《农村土地承包合同管理办法》5月1日起施行郟君昊 | 2023-05-02
五一档没一个能打的集玲琳 | 2023-05-05
"三高"已盯上青少年，做好这件事是关键習又夏 | 2023-05-05
恐怖韩剧下神坛，这次胆小可入袁曼雁 | 2023-05-05
这剧是不是用ChatGPT写的呀？惠惠君 | 2023-05-02
性骚扰惯犯，滚出娱乐圈謝飛揚 | 2023-05-05
48岁何炅自曝已老花眼，黄磊睡前认老，《向往的生活》证实将停办佼昌翰 | 2023-05-02
200户连夜疏散，原因让人愤怒！“损失超一亿”，官方通报袁曼雁 | 2023-05-03
一个《长月烬明》倒了，《狐妖》《长相思》《与凤行》…在路上了惠惠君 | 2023-05-02
当年轻人开始不随份子钱袁曼雁 | 2023-05-02
张天爱假期晒“酷”存照卷发披肩穿黑色吊带裙大秀好身材嬴覓晴 | 2023-05-02
毕滢用8年时间成功逼宫？曾被传已婚生子的她，不容小觑幸聽楓 | 2023-05-03
宋慧乔获视后首次晒照，拿奖杯笑容温柔郜萌運 | 2023-05-02