大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

拆分Transformer注意力,韓國團隊讓大模型解碼提速20倍

2024-07-02 简体 HK SG TW

今天小編分享的科學經驗:拆分Transformer注意力,韓國團隊讓大模型解碼提速20倍,歡迎閲讀。

只要将注意力切塊,就能讓大模型解碼提速 20 倍。

來自韓國科學技術研究院、LG 和 DeepMind 的研究人員,提出了一種新的 Transformer 架構。

不僅獲得了更快的推理速度,内存開銷也大幅度下降。

研究人員詳細分析了原始 Transformer 推理速度慢的原因——

原始 Transformer 每生成一個 Token 就要訪問一次全局 KV 緩存,消耗了大量資源。

實際上,這種方法的 GPU有效利用率不到 1%,其餘的 99% 都用在了内存訪問上。

針對這一問題,團隊對 Transformer 的注意力機制進行了切塊調整,提出了名為Block Transformer的新架構。

結果在沒有明顯質量損失的情況下,推理吞吐量提升了 10-20 倍。

有網友表示,自己之前也有過類似的思路,但結果模型的性能不足,現在這個方法看上去确實有效削減了 KV 緩存。

" 切開 "Transformer 的注意力

原始 Transformer 當中,對全局 KV 的頻繁訪問,導致計算復雜度高、内存占用大,但推理吞吐量卻很低。

針對這一問題,作者的核心思路是将原始 Transformer 的全局注意力分解,抽成塊級注意力和塊内注意力。

相應地,塊級注意力和塊内注意力分别由Block Decoder和Token Decoder進行處理。

具體的切塊數量根據總 Token 數和預設的塊大小決定,而塊大小的選擇,是全局和局部建模之間的平衡——

較大的塊可以減少塊的數量,從而降低 Block Decoder 的計算復雜度,但每個塊包含更多的 token,可能影響局部依賴的建模能力;

較小的塊包含的 Token 更少,可以提高局部依賴的建模能力,但 Block Decoder 需要處理更多的塊,可能增加計算復雜度。

△不同塊大小的性能比較

工作流程上,Block Transformer 拿到需要處理的序列之後,直接先進行切塊,然後利用 Embedder 将每個塊都轉換成一個嵌入向量。

具體來説,Embedder 可以是一個簡單的查找表,将塊内的 token 映射為對應的嵌入向量,然後将這些嵌入向量拼接或累加得到塊嵌入向量。

完成塊的向量化之後,Block Decoder 接收 Embedder 生成的塊嵌入向量序列作為輸入。

在其每個自注意力層中,都會對塊嵌入向量序列進行自注意力計算,捕捉塊與塊之間的全局依賴關系。

經過多個自注意力層的處理,塊嵌入向量融合了全局上下文信息,所以,Block Decoder 的輸出是一個全局上下文感知的塊嵌入向量序列。

完成塊級處理之後,Block Decoder 的輸出會與塊内已生成的 Token 向量一起被 Token Decoder 接收。

在 Token Decoder 中,塊嵌入向量首先被轉換為與 Token 嵌入向量相同維度的向量,然後在 Token Decoder 的多個自注意力層中進行處理,捕捉 Token 之間的局部依賴關系。

經過多個自注意力層的處理,Token 嵌入向量融合了局部上下文信息和來自塊嵌入向量的全局信息。

最終,Token Decoder 的輸出是一個包含了局部上下文感知的 Token 嵌入向量序列,用于生成當前塊的 Token,Token Decoder 重復這個過程,直到生成當前塊的所有 token。

回到整體上,Block Transformer 通過交替執行塊級自回歸建模和塊内自回歸解碼,迭代生成整個輸出序列。

比如在生成第 i 個塊時,Block Decoder 會根據前 i-1 個塊的嵌入向量預測第 i 個塊的嵌入向量,然後 Token Decoder 根據第 i 個塊的嵌入向量和已生成的 Token,生成第 i 個塊的 Token 序列。

這個過程重復進行,直到生成整個輸出序列。

推理吞吐量最高提升 20 倍

對注意力的切塊帶來的效果立竿見影,模型的推理吞吐量直接提升了 10-20 倍。

例如,在 decode-heavy 設定下,85M 參數的 Block Transformer 吞吐量達到了每秒 13.5 萬 Tokens,而同等大小的原始 Transformer 僅有約 6 千 Tokens。

針對更長的提示詞,Block Transformer 同樣具有吞吐量優勢——在提示詞長度為 8K 的情況下,Block Transformer 的吞吐量超過了提示詞長度為 2K 的原始 Transformer。

吞吐量的提升并沒有讓質量下降,在 HellaSwag、PIQA 和 ARC-easy 等多個零樣本任務上,Block Transformer 的準确率與同等大小的原始 Transformer 相當甚至略高。

進一步探究結果表明,Block Transformer 這種全局 - 局部建模方式能在提高推理效率的同時保持較低的訓練損失(圖 a)。

同時這種方法還能有效利用全局上下文,在 PG19 測試集上,取得了與原始 Transformer 相似的位置損失(圖 b)。

另外,在相同的訓練計算量和推理吞吐量預算下,Block Transformer 能達到比原始 Transformer 更低的訓練損失,展現出了優異的訓練效率(圖 c)。

除了帶來性能提升之外,Block Transformer 也降低了模型的訓練成本。

使用其默認的 4 個 Token 的塊長度,全局注意力的二次内存訪問開銷減少了 16 倍。

反復讀取 KV 緩存帶來的内存開銷也幾乎消除,1% 的 GPU 利用率提升到了 44%。

論文地址:

https://arxiv.org/abs/2406.02657

熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們