Transformer後繼有模！MSRA提出全新大模型基礎架構：推理速度8倍提升，内存占用減少70% - 大酷樂

今天小編分享的科學經驗：Transformer後繼有模！MSRA提出全新大模型基礎架構：推理速度8倍提升，内存占用減少70%，歡迎閲讀。

微軟大模型新架構，正式向Transformer發起挑戰！

論文标題明晃晃地寫道：

Retentive Network（RetNet）：大模型領網域 Transformer 的繼任者。

論文提出新的 Retention 機制來代替 Attention。來自微軟亞研院和清華的研究人員，毫不諱言 " 野心 "，大膽放話：

RetNet 實現了良好的擴展結果、并行訓練、低成本部署和高效推理。

這些特性使這一基礎架構，成為大語言模型中 Transformer 的有力繼承者。

而實驗數據也顯示，在語言建模任務上：

RetNet 可以達到與 Transformer 相當的困惑度（perplexity）

推理速度達 8.4 倍

内存占用減少 70%

具有良好的擴展性

并且當模型大小大于一定規模時，RetNet 表現會優于 Transformer。

Transformer 果真 " 後繼有模 " 了？具體詳情，一起來看。

解決 " 不可能三角 "

Transformer 在大語言模型中的重要性毋庸置疑。無論是 OpenAI 的 GPT 系列，還是谷歌的 PaLM、Meta 的 LLaMA，都是基于 Transformer 打造。

但 Transformer 也并非完美無缺：其并行處理機制是以低效推理為代價的，每個步驟的復雜度為 O ( N ) ；Transformer 是内存密集型模型，序列越長，占用的内存越多。

在此之前，大家也不是沒想過繼續改進 Transformer。但主要的幾種研究方向都有些顧此失彼：

線性 attention 可以降低推理成本，但性能較差；

循環神經網絡則無法進行并行訓練。

也就是説，這些神經網絡架構面前擺着一個 " 不可能三角 "，三個角代表的分别是：并行訓練、低成本推理和良好的擴展性能。

RetNet 的研究人員想做的，就是化不可能為可能。

具體而言，RetNet 在 Transformer 的基礎上，使用多尺度保持（retention）機制替代了标準的自注意力機制。

與标準自注意力機制相比，保持機制有幾大特點：

引入位置相關的指數衰減項取代 softmax，簡化了計算，同時使前步的信息以衰減的形式保留下來。

引入復數空間表達位置信息，取代絕對或相對位置編碼，容易轉換為遞歸形式。

另外，保持機制使用多尺度的衰減率，增加了模型的表達能力，并利用 GroupNorm 的縮放不變性來提高 retention 層的數值精度。

△RetNet 的雙重表示

每個 RetNet 塊包含兩個模塊：多尺度保持（MSR）模塊和前饋網絡（FFN）模塊。

保持機制支持以三種形式表示序列：

并行

遞歸

分塊遞歸，即并行表示和遞歸表示的混合形式，将輸入序列劃分為塊，在塊内按照并行表示進行計算，在塊間遵循遞歸表示。

其中，并行表示使 RetNet 可以像 Transformer 一樣高效地利用 GPU 進行并行訓練。

遞歸表示實現了 O ( 1 ) 的推理復雜度，降低了内存占用和延遲。

分塊遞歸則可以更高效地處理長序列。

這樣一來，RetNet 就使得 " 不可能三角 " 成為可能。以下為 RetNet 與其他基礎架構的對比結果：

在語言建模任務上的實驗結果，進一步證明了 RetNet 的有效性。

結果顯示，RetNet 可以達到與 Transformer 相似的困惑度（PPL，評價語言模型好壞的指标，越小越好）。

同時，在模型參數為 70 億、輸入序列長度為 8k 的情況下，RetNet 的推理速度能達到 Transformer 的8.4 倍，内存占用減少 70%。

在訓練過程中，RetNet 在内存節省和加速效果方面，也比标準 Transformer+FlashAttention 表現更好，分别達到25-50%和7 倍。

值得一提的是，RetNet 的推理成本與序列長度無關，推理延遲對批量大小不敏感，允許高吞吐量。

另外，當模型參數規模大于 20 億時，RetNet 的表現會優于 Transformer。

研究團隊

RetNet 的研究團隊，來自微軟亞研院和清華大學。

共同一作為孫宇濤和董力。

孫宇濤，清華大學計算機系本科，現在在微軟亞研院實習。

董力，微軟亞研院研究員。他也是此前引發大量關注的 " 能記住 10 億 token 的 Transformer" 的論文作者之一。

RetNet 論文的通訊作者是韋福如。他是微軟亞洲研究院全球研究合夥人，10 億 token Transformer 亦是來自他的研究團隊。

論文地址：

https://arxiv.org/abs/2307.08621

熱門排行

消息稱 vivo X Fold5 折疊屏手機配骁龍 8 G 佼昌翰 | 2025-04-26
智能進化科技驅動：寶馬上海車展定義未來汽惠惠君 | 2025-04-26
特朗普吓退外資？高盛：外國投資者近兩月累計抛嬴覓晴 | 2025-04-26
馬斯克殺回汽車行業：特斯拉自動駕駛出租車開郜萌運 | 2025-04-26
6月降息？美聯儲“喉舌”緊急提醒：勿過度腦補寸飛蘭 | 2025-04-26
香港中文大學MBA招生宣講會（廣州站）賁芳蕤 | 2025-04-26
炮制假非遺、AI生成假神醫，涉事企業被立案調賁芳蕤 | 2025-04-26
悄悄變大的牙縫，可能是這些習慣惹的禍！這些情袁曼雁 | 2025-04-26
一路攀升！Opta預測利物浦奪冠概率的變化：賽季嬴覓晴 | 2025-04-26
埃隆·馬斯克旗下XAI公司正與投資者洽談計嬴覓晴 | 2025-04-26
高露現身上海虹橋機場黑色外套點綴亮色愛惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：處理器更新為天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懶癌”發病率上升，定期體檢别忽視幸聽楓 | 2023-05-02
宋慧喬獲百想視後韓素希發圖手動加愛心表賁芳蕤 | 2023-05-02
十年了，他們終于要HE！惠惠君 | 2023-05-07
曹操墓，裏面都有啥？衛青柏 | 2023-05-02
中央部署經濟工作，釋放5大信号郜萌運 | 2023-05-02
高德上線手機彎道會車預警功能習又夏 | 2023-05-02
陳自瑤抱病為愛女做蛋糕慶生，王浩信點贊沒露賁芳蕤 | 2023-05-02
等比例長大的童星，李蘭迪算一個郟君昊 | 2023-05-02
高端國產車：軍車血統，目前電動車越野的“天花謝飛揚 | 2023-05-02
《雲襄傳》終于抬上來啦，男O女A讓人好上頭！集玲琳 | 2023-05-02
這些被抓來做實驗的流浪狗，最終拯救了無數糖集玲琳 | 2023-05-02
信用風險釋放趨緩，結構性風險需重點關注 — 袁曼雁 | 2023-05-02
21家A股遊戲公司2022年收入651億今年“遊衛青柏 | 2023-05-04
與周立波夫婦鬧糾紛成老賴，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
普京籤署總統令，批準對俄刑法典相關法條的修集玲琳 | 2023-05-02
中銀證券給予南京銀行增持評級袁曼雁 | 2023-05-03
解除資格！停止一切合作佼昌翰 | 2023-05-02
3699起聯想小新mini主機上架 13代酷睿标壓習又夏 | 2023-05-05
前董事長被免，天山生物全面進入“中植系”時惠惠君 | 2023-05-02
瘋成這樣，怎麼還能被全網吹捧？郜萌運 | 2023-05-02
狂吼11次“讓一下”！交警咆哮開道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收購美國第一共和銀行謝飛揚 | 2023-05-02
台劇赢麻了，又來一部8.9 衛青柏 | 2023-05-02
下降45分，上漲35分！34所自劃線院校復試分數線袁曼雁 | 2023-05-07
事關農村土地承包和農民權益，《農村土地承包郟君昊 | 2023-05-02
"三高"已盯上青少年，做好這件事是關鍵習又夏 | 2023-05-05
五一檔沒一個能打的集玲琳 | 2023-05-05
恐怖韓劇下神壇，這次膽小可入袁曼雁 | 2023-05-05
這劇是不是用ChatGPT寫的呀？惠惠君 | 2023-05-02
200户連夜疏散，原因讓人憤怒！“損失超一億”，袁曼雁 | 2023-05-03
性騷擾慣犯，滾出娛樂圈謝飛揚 | 2023-05-05
48歲何炅自曝已老花眼，黃磊睡前認老，《向往的佼昌翰 | 2023-05-02
一個《長月燼明》倒了，《狐妖》《長相思》《惠惠君 | 2023-05-02
張天愛假期曬“酷”存照卷發披肩穿黑色吊嬴覓晴 | 2023-05-02
當年輕人開始不随份子錢袁曼雁 | 2023-05-02
畢滢用8年時間成功逼宮？曾被傳已婚生子的她，幸聽楓 | 2023-05-03
宋慧喬獲視後首次曬照，拿獎杯笑容温柔郜萌運 | 2023-05-02