大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

拆分Transformer注意力,韩国团队让大模型解码提速20倍

2024-07-02 简体 HK SG TW

今天小编分享的科学经验:拆分Transformer注意力,韩国团队让大模型解码提速20倍,欢迎阅读。

只要将注意力切块,就能让大模型解码提速 20 倍。

来自韩国科学技术研究院、LG 和 DeepMind 的研究人员,提出了一种新的 Transformer 架构。

不仅获得了更快的推理速度,内存开销也大幅度下降。

研究人员详细分析了原始 Transformer 推理速度慢的原因——

原始 Transformer 每生成一个 Token 就要访问一次全局 KV 缓存,消耗了大量资源。

实际上,这种方法的 GPU有效利用率不到 1%,其余的 99% 都用在了内存访问上。

针对这一问题,团队对 Transformer 的注意力机制进行了切块调整,提出了名为Block Transformer的新架构。

结果在没有明显质量损失的情况下,推理吞吐量提升了 10-20 倍。

有网友表示,自己之前也有过类似的思路,但结果模型的性能不足,现在这个方法看上去确实有效削减了 KV 缓存。

" 切开 "Transformer 的注意力

原始 Transformer 当中,对全局 KV 的频繁访问,导致计算复杂度高、内存占用大,但推理吞吐量却很低。

针对这一问题,作者的核心思路是将原始 Transformer 的全局注意力分解,抽成块级注意力和块内注意力。

相应地,块级注意力和块内注意力分别由Block Decoder和Token Decoder进行处理。

具体的切块数量根据总 Token 数和预设的块大小决定,而块大小的选择,是全局和局部建模之间的平衡——

较大的块可以减少块的数量,从而降低 Block Decoder 的计算复杂度,但每个块包含更多的 token,可能影响局部依赖的建模能力;

较小的块包含的 Token 更少,可以提高局部依赖的建模能力,但 Block Decoder 需要处理更多的块,可能增加计算复杂度。

△不同块大小的性能比较

工作流程上,Block Transformer 拿到需要处理的序列之后,直接先进行切块,然后利用 Embedder 将每个块都转换成一个嵌入向量。

具体来说,Embedder 可以是一个简单的查找表,将块内的 token 映射为对应的嵌入向量,然后将这些嵌入向量拼接或累加得到块嵌入向量。

完成块的向量化之后,Block Decoder 接收 Embedder 生成的块嵌入向量序列作为输入。

在其每个自注意力层中,都会对块嵌入向量序列进行自注意力计算,捕捉块与块之间的全局依赖关系。

经过多个自注意力层的处理,块嵌入向量融合了全局上下文信息,所以,Block Decoder 的输出是一个全局上下文感知的块嵌入向量序列。

完成块级处理之后,Block Decoder 的输出会与块内已生成的 Token 向量一起被 Token Decoder 接收。

在 Token Decoder 中,块嵌入向量首先被转换为与 Token 嵌入向量相同维度的向量,然后在 Token Decoder 的多个自注意力层中进行处理,捕捉 Token 之间的局部依赖关系。

经过多个自注意力层的处理,Token 嵌入向量融合了局部上下文信息和来自块嵌入向量的全局信息。

最终,Token Decoder 的输出是一个包含了局部上下文感知的 Token 嵌入向量序列,用于生成当前块的 Token,Token Decoder 重复这个过程,直到生成当前块的所有 token。

回到整体上,Block Transformer 通过交替执行块级自回归建模和块内自回归解码,迭代生成整个输出序列。

比如在生成第 i 个块时,Block Decoder 会根据前 i-1 个块的嵌入向量预测第 i 个块的嵌入向量,然后 Token Decoder 根据第 i 个块的嵌入向量和已生成的 Token,生成第 i 个块的 Token 序列。

这个过程重复进行,直到生成整个输出序列。

推理吞吐量最高提升 20 倍

对注意力的切块带来的效果立竿见影,模型的推理吞吐量直接提升了 10-20 倍。

例如,在 decode-heavy 設定下,85M 参数的 Block Transformer 吞吐量达到了每秒 13.5 万 Tokens,而同等大小的原始 Transformer 仅有约 6 千 Tokens。

针对更长的提示词,Block Transformer 同样具有吞吐量优势——在提示词长度为 8K 的情况下,Block Transformer 的吞吐量超过了提示词长度为 2K 的原始 Transformer。

吞吐量的提升并没有让质量下降,在 HellaSwag、PIQA 和 ARC-easy 等多个零样本任务上,Block Transformer 的准确率与同等大小的原始 Transformer 相当甚至略高。

进一步探究结果表明,Block Transformer 这种全局 - 局部建模方式能在提高推理效率的同时保持较低的训练损失(图 a)。

同时这种方法还能有效利用全局上下文,在 PG19 测试集上,取得了与原始 Transformer 相似的位置损失(图 b)。

另外,在相同的训练计算量和推理吞吐量预算下,Block Transformer 能达到比原始 Transformer 更低的训练损失,展现出了优异的训练效率(图 c)。

除了带来性能提升之外,Block Transformer 也降低了模型的训练成本。

使用其默认的 4 个 Token 的块长度,全局注意力的二次内存访问开销减少了 16 倍。

反复读取 KV 缓存带来的内存开销也几乎消除,1% 的 GPU 利用率提升到了 44%。

论文地址:

https://arxiv.org/abs/2406.02657

熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們