Transformer后继有模！MSRA提出全新大模型基础架构：推理速度8倍提升，内存占用减少70% - 大酷樂

今天小编分享的科学经验：Transformer后继有模！MSRA提出全新大模型基础架构：推理速度8倍提升，内存占用减少70%，欢迎阅读。

微软大模型新架构，正式向Transformer发起挑战！

论文标题明晃晃地写道：

Retentive Network（RetNet）：大模型领網域 Transformer 的继任者。

论文提出新的 Retention 机制来代替 Attention。来自微软亚研院和清华的研究人员，毫不讳言 " 野心 "，大胆放话：

RetNet 实现了良好的扩展结果、并行训练、低成本部署和高效推理。

这些特性使这一基础架构，成为大语言模型中 Transformer 的有力继承者。

而实验数据也显示，在语言建模任务上：

RetNet 可以达到与 Transformer 相当的困惑度（perplexity）

推理速度达 8.4 倍

内存占用减少 70%

具有良好的扩展性

并且当模型大小大于一定规模时，RetNet 表现会优于 Transformer。

Transformer 果真 " 后继有模 " 了？具体详情，一起来看。

解决 " 不可能三角 "

Transformer 在大语言模型中的重要性毋庸置疑。无论是 OpenAI 的 GPT 系列，还是谷歌的 PaLM、Meta 的 LLaMA，都是基于 Transformer 打造。

但 Transformer 也并非完美无缺：其并行处理机制是以低效推理为代价的，每个步骤的复杂度为 O ( N ) ；Transformer 是内存密集型模型，序列越长，占用的内存越多。

在此之前，大家也不是没想过继续改进 Transformer。但主要的几种研究方向都有些顾此失彼：

线性 attention 可以降低推理成本，但性能较差；

循环神经网络则无法进行并行训练。

也就是说，这些神经网络架构面前摆着一个 " 不可能三角 "，三个角代表的分别是：并行训练、低成本推理和良好的扩展性能。

RetNet 的研究人员想做的，就是化不可能为可能。

具体而言，RetNet 在 Transformer 的基础上，使用多尺度保持（retention）机制替代了标准的自注意力机制。

与标准自注意力机制相比，保持机制有几大特点：

引入位置相关的指数衰减项取代 softmax，简化了计算，同时使前步的信息以衰减的形式保留下来。

引入复数空间表达位置信息，取代绝对或相对位置编码，容易转换为递归形式。

另外，保持机制使用多尺度的衰减率，增加了模型的表达能力，并利用 GroupNorm 的缩放不变性来提高 retention 层的数值精度。

△RetNet 的双重表示

每个 RetNet 块包含两个模块：多尺度保持（MSR）模块和前馈网络（FFN）模块。

保持机制支持以三种形式表示序列：

并行

递归

分块递归，即并行表示和递归表示的混合形式，将输入序列划分为块，在块内按照并行表示进行计算，在块间遵循递归表示。

其中，并行表示使 RetNet 可以像 Transformer 一样高效地利用 GPU 进行并行训练。

递归表示实现了 O ( 1 ) 的推理复杂度，降低了内存占用和延迟。

分块递归则可以更高效地处理长序列。

这样一来，RetNet 就使得 " 不可能三角 " 成为可能。以下为 RetNet 与其他基础架构的对比结果：

在语言建模任务上的实验结果，进一步证明了 RetNet 的有效性。

结果显示，RetNet 可以达到与 Transformer 相似的困惑度（PPL，评价语言模型好坏的指标，越小越好）。

同时，在模型参数为 70 亿、输入序列长度为 8k 的情况下，RetNet 的推理速度能达到 Transformer 的8.4 倍，内存占用减少 70%。

在训练过程中，RetNet 在内存节省和加速效果方面，也比标准 Transformer+FlashAttention 表现更好，分别达到25-50%和7 倍。

值得一提的是，RetNet 的推理成本与序列长度无关，推理延迟对批量大小不敏感，允许高吞吐量。

另外，当模型参数规模大于 20 亿时，RetNet 的表现会优于 Transformer。

研究团队

RetNet 的研究团队，来自微软亚研院和清华大学。

共同一作为孙宇涛和董力。

孙宇涛，清华大学计算机系本科，现在在微软亚研院实习。

董力，微软亚研院研究员。他也是此前引发大量关注的 " 能记住 10 亿 token 的 Transformer" 的论文作者之一。

RetNet 论文的通讯作者是韦福如。他是微软亚洲研究院全球研究合伙人，10 亿 token Transformer 亦是来自他的研究团队。

论文地址：

https://arxiv.org/abs/2307.08621

熱門排行

气炸中甲青岛红狮球员倒地未判点，主帅场边怒惠惠君 | 2025-04-26
HKC推出“Q7S”27 英寸显示器：2K 300Hz，1599 袁曼雁 | 2025-04-26
44岁的孙俪，她的事业危机才刚刚开始謝飛揚 | 2025-04-26
车企热衷插混和增程混动将是新能源汽车的袁曼雁 | 2025-04-26
7轮不败！蓉城2-1亚泰居第二韦世豪赛季第3球衛青柏 | 2025-04-26
保时捷 911 Carrera 新内饰套装重迎 Pasha 衛青柏 | 2025-04-26
蛮好的人生：直到被再次举报，胡曼黎才知，监视自幸聽楓 | 2025-04-26
“组队发育”，安徽在打什么算盘？賁芳蕤 | 2025-04-26
中国成为全球人工智能专利最大拥有国，占比 6 集玲琳 | 2025-04-26
被特朗普“赏识”，准备角逐FED主席？前理事沃寸飛蘭 | 2025-04-26
高露现身上海虹桥机场黑色外套点缀亮色爱惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：处理器更新为天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懒癌”发病率上升，定期体检别忽视幸聽楓 | 2023-05-02
宋慧乔获百想视后韩素希发图手动加爱心表賁芳蕤 | 2023-05-02
十年了，他们终于要HE！惠惠君 | 2023-05-07
曹操墓，里面都有啥？衛青柏 | 2023-05-02
中央部署经济工作，释放5大信号郜萌運 | 2023-05-02
高德上线手机弯道会车预警功能習又夏 | 2023-05-02
陈自瑶抱病为爱女做蛋糕庆生，王浩信点赞没露賁芳蕤 | 2023-05-02
等比例长大的童星，李兰迪算一个郟君昊 | 2023-05-02
高端国产车：军车血统，目前电动车越野的“天花謝飛揚 | 2023-05-02
《云襄传》终于抬上来啦，男O女A让人好上头！集玲琳 | 2023-05-02
这些被抓来做实验的流浪狗，最终拯救了无数糖集玲琳 | 2023-05-02
信用风险释放趋缓，结构性风险需重点关注 — 袁曼雁 | 2023-05-02
21家A股游戏公司2022年收入651亿今年“游衛青柏 | 2023-05-04
与周立波夫妇闹纠纷成老赖，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
普京签署总统令，批准对俄刑法典相关法条的修集玲琳 | 2023-05-02
中银证券给予南京银行增持评级袁曼雁 | 2023-05-03
解除资格！停止一切合作佼昌翰 | 2023-05-02
3699起联想小新mini主机上架 13代酷睿标压習又夏 | 2023-05-05
前董事长被免，天山生物全面进入“中植系”时惠惠君 | 2023-05-02
疯成这样，怎么还能被全网吹捧？郜萌運 | 2023-05-02
狂吼11次“让一下”！交警咆哮开道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收购美国第一共和银行謝飛揚 | 2023-05-02
台剧赢麻了，又来一部8.9 衛青柏 | 2023-05-02
下降45分，上涨35分！34所自划线院校复试分数线袁曼雁 | 2023-05-07
事关农村土地承包和农民权益，《农村土地承包郟君昊 | 2023-05-02
"三高"已盯上青少年，做好这件事是关键習又夏 | 2023-05-05
五一档没一个能打的集玲琳 | 2023-05-05
恐怖韩剧下神坛，这次胆小可入袁曼雁 | 2023-05-05
这剧是不是用ChatGPT写的呀？惠惠君 | 2023-05-02
200户连夜疏散，原因让人愤怒！“损失超一亿”，袁曼雁 | 2023-05-03
性骚扰惯犯，滚出娱乐圈謝飛揚 | 2023-05-05
48岁何炅自曝已老花眼，黄磊睡前认老，《向往的佼昌翰 | 2023-05-02
一个《长月烬明》倒了，《狐妖》《长相思》《惠惠君 | 2023-05-02
张天爱假期晒“酷”存照卷发披肩穿黑色吊嬴覓晴 | 2023-05-02
当年轻人开始不随份子钱袁曼雁 | 2023-05-02
毕滢用8年时间成功逼宫？曾被传已婚生子的她，幸聽楓 | 2023-05-03
宋慧乔获视后首次晒照，拿奖杯笑容温柔郜萌運 | 2023-05-02