大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

标点符号成大模型训练神器!KV缓存狂减一半,可处理400万Tokens长序列,来自华为港大等

2025-03-04 简体 HK SG TW

今天小编分享的科学经验:标点符号成大模型训练神器!KV缓存狂减一半,可处理400万Tokens长序列,来自华为港大等,欢迎阅读。

文字中貌似不起眼的标点符号,竟然可以显著加速大模型的训练和推理过程?

来自华为、港大、KAUST 和马普所的研究者,就提出了一种新的自然语言建模视角——SepLLM。

起因是团队发现某些看似无意义的分隔符,在注意力得分中占据了不成比例的重要地位。

于是,SepLLM 通过将一段文本中的信息压缩進帳隔符(比如逗号,句号等)中,真的实现了加速效果,并且可以让 KV 缓存减少一半。

自注意力机制的平方级复杂度,给计算存储需求和训练推理速度带来了不小的挑战。

为了降低推理的复杂度,大量节约 KV Cache 的稀疏化方法被提出。

然而这些方法大多是基于用户的问题或者提示来筛选有用的 KV Cache。

这使得如果用户再提出一个新的问题,模型回答的精度可能下降,因为包含答案信息的 KV 已经在上一次压缩过程中被抛弃。

除此之外,免训练方法通常无法相应地从头训练或者后训练,导致了训练和推理的流程差异性。

更重要的是现在主流的稀疏注意力改进方法,本质上更多是一种针对 KV Cache 存储与计算的稀疏化管理,而不是对自然语言的自然且高效的建模。

用分隔符实现自然语言高效建模

SepLLM 通过将一段文本中的信息压缩進帳隔符(比如逗号,句号等)中,显著加速了大型语言模型的训练和推理过程。

这一发现基于一个新颖且关键的模式:某些看似无意义的分隔符,在注意力得分中占据了不成比例的重要地位。

如下图所示,注意力可视化显示出一定的稀疏性,并且在分隔符处注意力明显更大。

由此,可以将这些自然语言中分隔符所自然分割的语义段的信息有效地压缩進帳隔符中,其他 tokens 直接丢弃,而不会造成信息损失。

除此之外,一般一个分割符所分割的语段的长度是有限且相对均衡的,因此用分割此语段的分隔符去浓缩语段信息,可以避免类似 RNN 当序列过长时而出现遗忘的问题。

因为这种基于分割符的语言建模视角反映了自然语言的自然而内在的稀疏性,而不是人为用类似 block/cluster 等概念预先定义的稀疏性,作者认为 SepLLM 可以作为大语言模型的原生稀疏注意力机制和原生基线模型。

具体来说,SepLLM 的基础设计包含下列三种 tokens:

初始 tokens:使用稀疏注意力机制时,保留初始 tokens 可避免生成 tokens 的困惑度(ppl)显著增加。

分隔符 tokens:看似 " 无意义 " 的分隔符 tokens 在给定输入上下文中比有语义意义的 tokens 获得更高的注意力分数。因此假设这些分隔符可压缩其分割的文本片段信息,在免训练(training-free)的场景中,基于此策略能在许多任务上取得与原始模型相似的结果;

相邻 tokens:由于语言任务通常具有局部依赖性,相邻 tokens 有助于形成局部平滑和连贯的上下文,所以在模型中考虑相邻 tokens。

在预训练或者后训练的过程中,强迫模型当前的 token 只能看到前文每个片段中代表该片段的分隔符,使片段信息被强制浓缩到分隔符中。

实际上,每个分隔符(逗号、句号、分号、问号等)都是具备其特有的语义的,它们是对其分割段落的最原生和最细粒度的收尾与总结。

训练阶段,不需要将输入上下文中所有 tokens 对应的 Query 向量与所有 Key 向量相乘,只需乘以掩码矩阵中突出显示元素对应的 Key 向量;

生成阶段对 KV 缓存的管理较为直观,只保留初始、分隔符和相邻 tokens 的 KV Cache。

研究者还针对 Streaming 场景还提出了定制的设计,包括同时维护的四个专用缓存块(初始缓存、分隔符缓存、过去視窗缓存和局部視窗缓存)及其功能,定义了四个缓存的运行时使用量和相邻 tokens 数量的相关变量,并详细说明了缓存系统的预设超参数。

在 Streaming 序列生成过程中,SepLLM 会按照一定规则填充和管理这些缓存,当缓存达到一定条件时会触发压缩操作。

算力缓存消耗均减少,推理速度也更快了

作者分析了 KV Cache 的平均使用情况,结果,SepLLM 在免训练、预训练和后训练场景中都展现出了卓越的效率,首先进行一个简单总结:

训推效率提升:SepLLM 在免训练、从头预训练和后训练中都展现出了卓越的效率。特别是在使用 Llama-3-8B 模型时,SepLLM 在 GSM8K 和 MMLU 基准测试中减少了超过 50% 的 KV 缓存,同时保持了相当的性能表现。

无限长的流式处理能力:在无限长输入的流式的场景中,SepLLM 能够有效处理高达 400 万甚至更多 tokens 的序列,同时保持一致的语言建模能力。

广泛的实验验证与理论分析:通过在多种任务,各种基础模型(Llama,Falcon, GPTNeoX 等)和多种数据集上的广泛实验,SepLLM 证明了其在不同設定下的有效性,包括免训练、预训练和后训练。除此之外,作者还提供了对 SepLLM 架构通用近似(Universal Approximation)的详细理论分析。

接下来看一下具体的实验数据。

KV 缓存减少 50%

基于 Llama-3-8B 模型,SepLLM 实现了超过 50% 的 KV 缓存减少,推理开销 / 显存压力大大降低,同时下游任务的性能几乎没有损失。

SepLLM 的数学逻辑推理能力(GSM8K)/ 综合知识面广度(MMLU)在免训练的场景下即可达到和 Llama-3-8B 几乎一样的性能。

基于 Pythia 模型的更多下游任务上的结果,也验证了 SepLLM 的优秀的计算和存储效率与卓越的推理精度。

支持 400 万 +Tokens 流式长序列生成

同时,SepLLM 可以轻松处理 400 万 +Tokens 以上的超长流式(streaming)序列生成。

推理速度更快,困惑度更低

并且由于 SepLLM 优化了推理过程,生成速度更快,同时语言模型的困惑度也更低了,运行时的平均 KV Cache 同样有所减小。

训练 FLOPs 更低,速度 / 吞吐率更大

除了推理,训练过程也用更低的 FLOPs 消耗,实现了更大的速度和吞吐率。

预训练中,达到相同 Loss 的时间缩短 1.26 倍,并且达到 1.53 倍的训练吞吐率和训练加速比。

后训练中,SepLLM 也可以在较短时间内通过后训练恢复到原始 Full Attention 的训练 loss,为基于大模型的高效后训练提供了可能。

适配不同 backbone 模型架构

同时,SepLLM 可以适配各种 backbone 模型架构。

其中包括比如 Llama、Pythia、GPTNeoX、GPT2 以及 Falcon 等等。

对于这些架构,SepLLM 均能实现更低的平均运行时 KV Cache、更短的推理时间,以及更低的困惑度。

各种参数量模型均适配

SepLLM 还可以适配各种大小的模型。

从 Pythia-160M 到 Pythia-1.4B、6.9B,Llama3-8B,Falcon-40B 等等,SepLLM 均能实现更低的平均运行时 KV Cache、更短的推理时间和更低的困惑度。

最近,DeepSeek 的 NSA 与月之暗面的 MoBA 让稀疏注意力机制受到了较大的关注,相较于上述工作采用固定 token 数来划分压缩区间,SepLLM 根据原生语义来划分动态数量的 token 数。

研究者也针对静态和动态 token 数压缩做了讨论,在免训练场景中,基于 SepLLM 的动态压缩能在下游任务中达到更好的准确率。

目前 SepLLM 的代码库已经公开,支持高效的多节点分布式训练,并采用了加速注意力机制的模块 Sep-Attention。

此外,它还支持多种现有的 Fusion Operators,如 fused rope 和 fused layer norm,以加速训练过程。

项目地址:

https://sepllm.github.io/

论文地址:

https://arxiv.org/abs/2412.12094

代码:

https://github.com/HKUDS/SepLLM

—  完  —

学术投稿请于工作日发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容‍

附上论文 / 项目主页链接,以及联系方式哦

我们会(尽量)及时回复你

一键关注 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們