今天小编分享的科学经验:90分钟生成10万Token,新框架实现3倍无损加速超长文本生成,支持DeepSeek-R1和QwQ!,欢迎阅读。
大语言模型长序列文本生成效率新突破——
生成 10 万 Token 的文本,传统自回归模型需要近 5 个小时,现在仅需 90 分钟!
最新研究提出了一个名为TOKENSWIFT 框架,从模型加载、KV 缓存管理到 Token 生成策略进行了全方位的优化。
实验结果证明,该方法不仅能大幅提升生成效率,更在保证生成质量和多样性上实现了无损加速。
而且支持 R1-Distill,团队发布经过微调的 DeepSeek-R1-Distill-Qwen-32B 模型,同样具备 3 倍加速效果。
来看 demo 展示:
本研究由来自北京通用人工智能研究院的团队完成,以下是更多细节。
TOKENSWIFT 框架长啥样?
随着 LLMs 长上下文視窗能力的不断提升,复杂任务对超长文本生成的需求越来越高。传统的自回归(AR)生成方式虽然在短文本上表现良好,但在长文本生成中存在明显瓶颈,主要体现在以下三个方面:
模型频繁加载问题
由于自回归生成每生成一个 Token 都需要从 GPU 存储中重新加载模型权重,导致 I/O 操作频繁、延迟高。在生成 10 万 Token 时,模型需要重复加载上万次,严重拖慢整体生成速度。
KV 缓存的动态管理
生成超长文本过程中,模型内部的键值对(KV Cache)不断增长,若直接使用全量 KV 缓存,不仅超出内存预算,还会大幅增加计算时间。如何在保证关键信息不丢失的前提下,实现 KV 缓存的高效更新成为一大难题。
重复性生成
长序列生成易出现重复和冗余问题,影响文本的多样性和质量。虽然重复问题并非论文的主要聚焦点,但在超长文本生成中依然需要有效抑制。
为解决上述难题,论文提出了 TOKENSWIFT ——一个全新的框架,旨在实现无损加速超长序列生成,其主要创新点体现在以下几个方面:
1)多 Token 并行生成与 Token 复用
论文借鉴了 Medusa 等方法,通过引入额外的线性层,使模型在一次前向传播中能够同时生成多个草稿 Token。
更重要的是,基于生成文本中的 n-gram 频率信息,系统会自动检索并复用高频短语,从而进一步减少模型重新加载的次数,提升整体效率。
2)动态 KV 缓存更新策略
在 KV 缓存管理上,TOKENSWIFT 采用动态更新策略。系统在生成过程中将初始 KV 缓存保留,同时根据 Token 的重要性对后续缓存进行有序替换。
这种方式不仅有效控制了缓存的规模,还确保了关键信息始终被保存,大幅降低了因缓存加载带来的延迟。
3)基于树结构的多候选 Token 验证
为保证生成结果与目标模型预测的一致性,TOKENSWIFT 引入了树形注意力机制。
通过构建包含多个候选 Token 组合的树形结构,并采用并行验证的方式,从中随机选择最长且有效的 n-gram 作为最终输出,确保生成过程无损且多样性得到提升。
4)上下文惩罚策略
为了进一步抑制重复生成问题,论文设计了一种上下文惩罚方法。该方法在生成过程中为近期生成的 Token 施加惩罚,使得模型在选择下一 Token 时更倾向于多样化输出,从而有效减少重复现象。
TOKENSWIFT 效果如何?
实验部分,论文在多种模型架构(包括 MHA 和 GQA)及不同规模(1.5B、7B、8B、14B)上进行了充分测试。
结果表明,TOKENSWIFT 在生成 10 万 Token 长序列时,相较于传统自回归方法,平均实现了 3 倍以上的加速,且生成结果在准确性和多样性上基本保持无损。
1)加速效果
实验数据显示,在 LLaMA3.1-8B 模型下,传统 AR 生成 10 万 Token 约需 4.9 小时,而使用 TOKENSWIFT 后仅需 90 分钟,大幅节省时间。在 Qwen2.5-14B 时,传统 AR 生成 10 万 Token 更是达到了 7.9 小时,加速后仅需 142 分钟。这一成果对于实际应用中需要实时或高效长文本生成的场景具有重要意义。
2)验证率与接受率
论文设计了多项指标来评估生成质量,包括 Token 接受率和 Distinct-n 指标。结果表明,TOKENSWIFT 不仅在速度上显著领先,还能在保持无损生成的前提下,有效提升文本的多样性。
消融实验与案例分析
在深入理解 TOKENSWIFT 各模块贡献的过程中,论文还进行了全面的消融实验和案例分析,为优化方案提供了充分依据。
消融实验:关键组件的作用
Token 复用消融:实验中将 Token 复用参数设为 0(即不复用),结果显示,接受率和生成速度均显著下降,表明复用机制在减少模型加载次数、提升整体效率方面发挥了关键作用。
KV 缓存更新策略对比:研究对比了全量缓存、一次性更新和动态更新三种方案。结果表明,全量缓存虽然在接受率上略占优势,但其高计算开销使得整体加速效果不理想;而一次性更新则因缓存膨胀导致性能下降。动态更新策略则在保持高接受率的同时,实现了最佳的速度与资源平衡。
上下文惩罚效果:在不同采样方法下,加入上下文惩罚后,生成文本的 Distinct-n 指标明显提高。
例如,在 min-p 采样场景下,Distinct-n 平均得分从 0.12 提升至 0.69,仅带来约 8% 的速度损失,充分验证了该策略在抑制重复生成方面的有效性。
案例分析:真实生成对比
论文还对比了在有无上下文惩罚条件下生成文本的差异,案例分析结果令人印象深刻:
重复现象的抑制:在未使用上下文惩罚时,生成文本在大约 5K Token 处就出现明显重复,且多为逐字重复;而采用上下文惩罚后,重复问题明显延迟至约 60K Token,且重复部分多表现为语义层次上的相似,而非直接复制,整体文本连贯性和可读性大幅改善。
文本质量的提升:案例对比显示,使用完整 TOKENSWIFT 流程的生成结果在逻辑连贯性、表达多样性和创新性方面均优于传统方法,为实际应用提供了更高质量的文本输出。
通过这些消融实验和案例分析,论文不仅证明了各关键技术模块的重要性,也为后续优化指明了方向,充分体现了 TOKENSWIFT 在超长文本生成领網域的先进性和实用性。
Arxiv:https://arxiv.org/abs/2502.18890
Github:https://github.com/bigai-nlco/TokenSwift
Blog:https://bigai-nlco.github.io/TokenSwift/
— 完 —
学术投稿请于工作日发邮件到:
标题注明【投稿】,告诉我们:
你是谁,从哪来,投稿内容
附上论文 / 项目主页链接,以及联系方式哦
我们会(尽量)及时回复你
一键关注 点亮星标
科技前沿进展每日见
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!