大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

标點符号成大模型訓練神器!KV緩存狂減一半,可處理400萬Tokens長序列,來自華為港大等

2025-03-04 简体 HK SG TW

今天小編分享的科學經驗:标點符号成大模型訓練神器!KV緩存狂減一半,可處理400萬Tokens長序列,來自華為港大等,歡迎閱讀。

文字中貌似不起眼的标點符号,竟然可以顯著加速大模型的訓練和推理過程?

來自華為、港大、KAUST 和馬普所的研究者,就提出了一種新的自然語言建模視角——SepLLM。

起因是團隊發現某些看似無意義的分隔符,在注意力得分中占據了不成比例的重要地位。

于是,SepLLM 通過将一段文本中的信息壓縮進帳隔符(比如逗号,句号等)中,真的實現了加速效果,并且可以讓 KV 緩存減少一半。

自注意力機制的平方級復雜度,給計算存儲需求和訓練推理速度帶來了不小的挑戰。

為了降低推理的復雜度,大量節約 KV Cache 的稀疏化方法被提出。

然而這些方法大多是基于用戶的問題或者提示來篩選有用的 KV Cache。

這使得如果用戶再提出一個新的問題,模型回答的精度可能下降,因為包含答案信息的 KV 已經在上一次壓縮過程中被抛棄。

除此之外,免訓練方法通常無法相應地從頭訓練或者後訓練,導致了訓練和推理的流程差異性。

更重要的是現在主流的稀疏注意力改進方法,本質上更多是一種針對 KV Cache 存儲與計算的稀疏化管理,而不是對自然語言的自然且高效的建模。

用分隔符實現自然語言高效建模

SepLLM 通過将一段文本中的信息壓縮進帳隔符(比如逗号,句号等)中,顯著加速了大型語言模型的訓練和推理過程。

這一發現基于一個新穎且關鍵的模式:某些看似無意義的分隔符,在注意力得分中占據了不成比例的重要地位。

如下圖所示,注意力可視化顯示出一定的稀疏性,并且在分隔符處注意力明顯更大。

由此,可以将這些自然語言中分隔符所自然分割的語義段的信息有效地壓縮進帳隔符中,其他 tokens 直接丢棄,而不會造成信息損失。

除此之外,一般一個分割符所分割的語段的長度是有限且相對均衡的,因此用分割此語段的分隔符去濃縮語段信息,可以避免類似 RNN 當序列過長時而出現遺忘的問題。

因為這種基于分割符的語言建模視角反映了自然語言的自然而内在的稀疏性,而不是人為用類似 block/cluster 等概念預先定義的稀疏性,作者認為 SepLLM 可以作為大語言模型的原生稀疏注意力機制和原生基線模型。

具體來說,SepLLM 的基礎設計包含下列三種 tokens:

初始 tokens:使用稀疏注意力機制時,保留初始 tokens 可避免生成 tokens 的困惑度(ppl)顯著增加。

分隔符 tokens:看似 " 無意義 " 的分隔符 tokens 在給定輸入上下文中比有語義意義的 tokens 獲得更高的注意力分數。因此假設這些分隔符可壓縮其分割的文本片段信息,在免訓練(training-free)的場景中,基于此策略能在許多任務上取得與原始模型相似的結果;

相鄰 tokens:由于語言任務通常具有局部依賴性,相鄰 tokens 有助于形成局部平滑和連貫的上下文,所以在模型中考慮相鄰 tokens。

在預訓練或者後訓練的過程中,強迫模型當前的 token 只能看到前文每個片段中代表該片段的分隔符,使片段信息被強制濃縮到分隔符中。

實際上,每個分隔符(逗号、句号、分号、問号等)都是具備其特有的語義的,它們是對其分割段落的最原生和最細粒度的收尾與總結。

訓練階段,不需要将輸入上下文中所有 tokens 對應的 Query 向量與所有 Key 向量相乘,只需乘以掩碼矩陣中突出顯示元素對應的 Key 向量;

生成階段對 KV 緩存的管理較為直觀,只保留初始、分隔符和相鄰 tokens 的 KV Cache。

研究者還針對 Streaming 場景還提出了定制的設計,包括同時維護的四個專用緩存塊(初始緩存、分隔符緩存、過去視窗緩存和局部視窗緩存)及其功能,定義了四個緩存的運行時使用量和相鄰 tokens 數量的相關變量,并詳細說明了緩存系統的預設超參數。

在 Streaming 序列生成過程中,SepLLM 會按照一定規則填充和管理這些緩存,當緩存達到一定條件時會觸發壓縮操作。

算力緩存消耗均減少,推理速度也更快了

作者分析了 KV Cache 的平均使用情況,結果,SepLLM 在免訓練、預訓練和後訓練場景中都展現出了卓越的效率,首先進行一個簡單總結:

訓推效率提升:SepLLM 在免訓練、從頭預訓練和後訓練中都展現出了卓越的效率。特别是在使用 Llama-3-8B 模型時,SepLLM 在 GSM8K 和 MMLU 基準測試中減少了超過 50% 的 KV 緩存,同時保持了相當的性能表現。

無限長的流式處理能力:在無限長輸入的流式的場景中,SepLLM 能夠有效處理高達 400 萬甚至更多 tokens 的序列,同時保持一致的語言建模能力。

廣泛的實驗驗證與理論分析:通過在多種任務,各種基礎模型(Llama,Falcon, GPTNeoX 等)和多種數據集上的廣泛實驗,SepLLM 證明了其在不同設定下的有效性,包括免訓練、預訓練和後訓練。除此之外,作者還提供了對 SepLLM 架構通用近似(Universal Approximation)的詳細理論分析。

接下來看一下具體的實驗數據。

KV 緩存減少 50%

基于 Llama-3-8B 模型,SepLLM 實現了超過 50% 的 KV 緩存減少,推理開銷 / 顯存壓力大大降低,同時下遊任務的性能幾乎沒有損失。

SepLLM 的數學邏輯推理能力(GSM8K)/ 綜合知識面廣度(MMLU)在免訓練的場景下即可達到和 Llama-3-8B 幾乎一樣的性能。

基于 Pythia 模型的更多下遊任務上的結果,也驗證了 SepLLM 的優秀的計算和存儲效率與卓越的推理精度。

支持 400 萬 +Tokens 流式長序列生成

同時,SepLLM 可以輕松處理 400 萬 +Tokens 以上的超長流式(streaming)序列生成。

推理速度更快,困惑度更低

并且由于 SepLLM 優化了推理過程,生成速度更快,同時語言模型的困惑度也更低了,運行時的平均 KV Cache 同樣有所減小。

訓練 FLOPs 更低,速度 / 吞吐率更大

除了推理,訓練過程也用更低的 FLOPs 消耗,實現了更大的速度和吞吐率。

預訓練中,達到相同 Loss 的時間縮短 1.26 倍,并且達到 1.53 倍的訓練吞吐率和訓練加速比。

後訓練中,SepLLM 也可以在較短時間内通過後訓練恢復到原始 Full Attention 的訓練 loss,為基于大模型的高效後訓練提供了可能。

适配不同 backbone 模型架構

同時,SepLLM 可以适配各種 backbone 模型架構。

其中包括比如 Llama、Pythia、GPTNeoX、GPT2 以及 Falcon 等等。

對于這些架構,SepLLM 均能實現更低的平均運行時 KV Cache、更短的推理時間,以及更低的困惑度。

各種參數量模型均适配

SepLLM 還可以适配各種大小的模型。

從 Pythia-160M 到 Pythia-1.4B、6.9B,Llama3-8B,Falcon-40B 等等,SepLLM 均能實現更低的平均運行時 KV Cache、更短的推理時間和更低的困惑度。

最近,DeepSeek 的 NSA 與月之暗面的 MoBA 讓稀疏注意力機制受到了較大的關注,相較于上述工作采用固定 token 數來劃分壓縮區間,SepLLM 根據原生語義來劃分動态數量的 token 數。

研究者也針對靜态和動态 token 數壓縮做了讨論,在免訓練場景中,基于 SepLLM 的動态壓縮能在下遊任務中達到更好的準确率。

目前 SepLLM 的代碼庫已經公開,支持高效的多節點分布式訓練,并采用了加速注意力機制的模塊 Sep-Attention。

此外,它還支持多種現有的 Fusion Operators,如 fused rope 和 fused layer norm,以加速訓練過程。

項目地址:

https://sepllm.github.io/

論文地址:

https://arxiv.org/abs/2412.12094

代碼:

https://github.com/HKUDS/SepLLM

—  完  —

學術投稿請于工作日發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

一鍵關注 點亮星标

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們