大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

90分鍾生成10萬Token,新框架實現3倍無損加速超長文本生成,支持DeepSeek-R1和QwQ!

2025-03-13 简体 HK SG TW

今天小編分享的科學經驗:90分鍾生成10萬Token,新框架實現3倍無損加速超長文本生成,支持DeepSeek-R1和QwQ!,歡迎閲讀。

大語言模型長序列文本生成效率新突破——

生成 10 萬 Token 的文本,傳統自回歸模型需要近 5 個小時,現在僅需 90 分鍾!

最新研究提出了一個名為TOKENSWIFT 框架,從模型加載、KV 緩存管理到 Token 生成策略進行了全方位的優化。

實驗結果證明,該方法不僅能大幅提升生成效率,更在保證生成質量和多樣性上實現了無損加速。

而且支持 R1-Distill,團隊發布經過微調的 DeepSeek-R1-Distill-Qwen-32B 模型,同樣具備 3 倍加速效果。

來看 demo 展示:

本研究由來自北京通用人工智能研究院的團隊完成,以下是更多細節。

TOKENSWIFT 框架長啥樣?

随着 LLMs 長上下文視窗能力的不斷提升,復雜任務對超長文本生成的需求越來越高。傳統的自回歸(AR)生成方式雖然在短文本上表現良好,但在長文本生成中存在明顯瓶頸,主要體現在以下三個方面:

模型頻繁加載問題

由于自回歸生成每生成一個 Token 都需要從 GPU 存儲中重新加載模型權重,導致 I/O 操作頻繁、延遲高。在生成 10 萬 Token 時,模型需要重復加載上萬次,嚴重拖慢整體生成速度。

KV 緩存的動态管理

生成超長文本過程中,模型内部的鍵值對(KV Cache)不斷增長,若直接使用全量 KV 緩存,不僅超出内存預算,還會大幅增加計算時間。如何在保證關鍵信息不丢失的前提下,實現 KV 緩存的高效更新成為一大難題。

重復性生成

長序列生成易出現重復和冗餘問題,影響文本的多樣性和質量。雖然重復問題并非論文的主要聚焦點,但在超長文本生成中依然需要有效抑制。

為解決上述難題,論文提出了 TOKENSWIFT ——一個全新的框架,旨在實現無損加速超長序列生成,其主要創新點體現在以下幾個方面:

1)多 Token 并行生成與 Token 復用

論文借鑑了 Medusa 等方法,通過引入額外的線性層,使模型在一次前向傳播中能夠同時生成多個草稿 Token。

更重要的是,基于生成文本中的 n-gram 頻率信息,系統會自動檢索并復用高頻短語,從而進一步減少模型重新加載的次數,提升整體效率。

2)動态 KV 緩存更新策略

在 KV 緩存管理上,TOKENSWIFT 采用動态更新策略。系統在生成過程中将初始 KV 緩存保留,同時根據 Token 的重要性對後續緩存進行有序替換。

這種方式不僅有效控制了緩存的規模,還确保了關鍵信息始終被保存,大幅降低了因緩存加載帶來的延遲。

3)基于樹結構的多候選 Token 驗證

為保證生成結果與目标模型預測的一致性,TOKENSWIFT 引入了樹形注意力機制。

通過構建包含多個候選 Token 組合的樹形結構,并采用并行驗證的方式,從中随機選擇最長且有效的 n-gram 作為最終輸出,确保生成過程無損且多樣性得到提升。

4)上下文懲罰策略

為了進一步抑制重復生成問題,論文設計了一種上下文懲罰方法。該方法在生成過程中為近期生成的 Token 施加懲罰,使得模型在選擇下一 Token 時更傾向于多樣化輸出,從而有效減少重復現象。

TOKENSWIFT 效果如何?

實驗部分,論文在多種模型架構(包括 MHA 和 GQA)及不同規模(1.5B、7B、8B、14B)上進行了充分測試。

結果表明,TOKENSWIFT 在生成 10 萬 Token 長序列時,相較于傳統自回歸方法,平均實現了 3 倍以上的加速,且生成結果在準确性和多樣性上基本保持無損。

1)加速效果

實驗數據顯示,在 LLaMA3.1-8B 模型下,傳統 AR 生成 10 萬 Token 約需 4.9 小時,而使用 TOKENSWIFT 後僅需 90 分鍾,大幅節省時間。在 Qwen2.5-14B 時,傳統 AR 生成 10 萬 Token 更是達到了 7.9 小時,加速後僅需 142 分鍾。這一成果對于實際應用中需要實時或高效長文本生成的場景具有重要意義。

2)驗證率與接受率

論文設計了多項指标來評估生成質量,包括 Token 接受率和 Distinct-n 指标。結果表明,TOKENSWIFT 不僅在速度上顯著領先,還能在保持無損生成的前提下,有效提升文本的多樣性。

消融實驗與案例分析

在深入理解 TOKENSWIFT 各模塊貢獻的過程中,論文還進行了全面的消融實驗和案例分析,為優化方案提供了充分依據。

消融實驗:關鍵組件的作用

Token 復用消融:實驗中将 Token 復用參數設為 0(即不復用),結果顯示,接受率和生成速度均顯著下降,表明復用機制在減少模型加載次數、提升整體效率方面發揮了關鍵作用。

KV 緩存更新策略對比:研究對比了全量緩存、一次性更新和動态更新三種方案。結果表明,全量緩存雖然在接受率上略占優勢,但其高計算開銷使得整體加速效果不理想;而一次性更新則因緩存膨脹導致性能下降。動态更新策略則在保持高接受率的同時,實現了最佳的速度與資源平衡。

上下文懲罰效果:在不同采樣方法下,加入上下文懲罰後,生成文本的 Distinct-n 指标明顯提高。

例如,在 min-p 采樣場景下,Distinct-n 平均得分從 0.12 提升至 0.69,僅帶來約 8% 的速度損失,充分驗證了該策略在抑制重復生成方面的有效性。

案例分析:真實生成對比

論文還對比了在有無上下文懲罰條件下生成文本的差異,案例分析結果令人印象深刻:

重復現象的抑制:在未使用上下文懲罰時,生成文本在大約 5K Token 處就出現明顯重復,且多為逐字重復;而采用上下文懲罰後,重復問題明顯延遲至約 60K Token,且重復部分多表現為語義層次上的相似,而非直接復制,整體文本連貫性和可讀性大幅改善。

文本質量的提升:案例對比顯示,使用完整 TOKENSWIFT 流程的生成結果在邏輯連貫性、表達多樣性和創新性方面均優于傳統方法,為實際應用提供了更高質量的文本輸出。

通過這些消融實驗和案例分析,論文不僅證明了各關鍵技術模塊的重要性,也為後續優化指明了方向,充分體現了 TOKENSWIFT 在超長文本生成領網域的先進性和實用性。

Arxiv:https://arxiv.org/abs/2502.18890

Github:https://github.com/bigai-nlco/TokenSwift

Blog:https://bigai-nlco.github.io/TokenSwift/

—  完  —

學術投稿請于工作日發郵件到:

[email protected]

标題注明【投稿】,告訴我們:

你是誰,從哪來,投稿内容‍

附上論文 / 項目主頁鏈接,以及聯系方式哦

我們會(盡量)及時回復你

一鍵關注 點亮星标

科技前沿進展每日見

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重税打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重税打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?硅碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?硅碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裏面都有啥? 曹操墓,裏面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200户連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200户連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 宋慧喬獲視後首次曬照,拿獎杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們