大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科技

實測 YRCloudFile KVCache

2025-04-04 简体 HK SG TW

今天小編分享的科技經驗:實測 YRCloudFile KVCache,歡迎閱讀。

進一步探索并發布 KVCache 在推理場景中的詳細性能優化數據。

DeepSeek 引爆大模型在千行百業落地的背景下,存儲與計算的協同優化正成為企業提升 AI 推理效率、降低運營成本的關鍵。KVCache 技術通過 " 以存換算 " 的創新模式,顯著提升了推理性能,成為企業構建大模型基礎設施的必要選擇。此前,焱融科技率先推出 YRCloudFile 分布式檔案系統的 KVCache 特性,支持 PB 級緩存擴展,大幅提高 KV 緩存命中率與長上下文處理能力,為大模型推理提供更優性價比技術方案。

在本篇文章中,焱融存儲技術團隊基于公開數據集和業界公認的測試工具,基于 NVIDIA GPU 硬體平台模拟真實的推理業務場景,進一步探索并發布 KVCache 在推理場景中的詳細性能優化數據。測試結果顯示,在相同規模和推理延遲 TTFT(Time-To-First-Token) 下,YRCloudFile KVCache 可支持更高并發查詢請求,為用戶提供更貼近實際使用場景的性能驗證與優化方案。這些數據不僅驗證了 KVCache 技術的有效性,并揭示了高性能 KVCache 給推理業務帶來的可量化的價值。

為了驗證将 GPU 内存擴展至 YRCloudFile KVCache 對 token 處理效率的顯著提升效果,并充分展示焱融 AI 存儲架構的卓越性能,我們進行了多輪測試。通過針對不同 token 數量和配置的測試,深入探索該架構在實際應用中的優化潛力。以下測試均是基于原生 vLLM,以及 vLLM+YRCloudFile KVCache 進行的數據對比。

測試一:長上下文提問下,推理 TTFT 的對比數據

背景:輸入長上下文,對比單次提問的回答總耗時(指超過 20K 長度的 token)

顯卡:NVIDIA T4

模型:Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4

測試方法:基于同樣的上下文,使用相同的問題,通過 QA chatbot 上進行提問模拟

測試結論:在長上下文場景中,使用 YRCloudFile KVCache 可實現高達 13 倍的 TTFT 性能提升。這一顯著優化得益于其高效緩存命中率和對大規模數據的快速處理能力,為大模型推理提供了更優的性能支持。

用戶普遍能接受的 TTFT 在 2 秒以内。基于這一背景,我們設計了測試二,以驗證系統在長上下文場景下的性能表現。

測試二:使用不同上下文長度,在 TTFT ≤ 2 秒時,相同 GPU 能支撐的并發數對比數據。

背景:在相同顯卡配置與 2 秒 TTFT 延遲約束條件下,通過對比原生 vLLM 與集成 YRCloudFile KVCache 的解決方案在不同上下文長度(--max-prompt-length 參數)下的并發支持能力,驗證存儲擴展對并發推理請求的提升效果。

顯卡:NVIDIA L20

測試工具:使用 evalscope 測試工具, --dataset 參數為 longalpaca,以及指定不同 --max-prompt-length 參數值,進行測試。

測試結論:在相同 GPU 配置下,當 TTFT ≤ 2 秒時,YRCloudFile KVCache 可承載的并發數可提升 8 倍。這意味着,在相同數量的 GPU 配置下,系統能夠滿足更高并發請求的需求,顯著優化了推理性能和資源利用率。

測試三:在相同 GPU 配置和較高并發數下,使用不同上下文長度的 TTFT 性能對比數據。

背景:在相同顯卡配置下,通過設定不同的上下文長度(--max-prompt-length 參數),在并發數為 30 情況下,使用原生 vLLM,以及 vLLM+YRCloudFile KVCache 進行的數據對比。

測試工具:evalscope,--dataset 使用 longalpaca,指定不同 --max-prompt-length,并發為 30 的情況下,進行測試。

測試結論:在較高并發數下,對于不同的上下文長度,YRCloudFile KVCache 所提供的 TTFT 延遲可縮小 4 倍以上;這表明 YRCloudFile KVCache 在高并發場景下,能夠有效優化推理性能,顯著減少延遲,提升用戶體驗。

本次測試通過多維度驗證表明,YRCloudFile KVCache 在長上下文處理與高并發場景中展現出顯著性能優勢:在 TTFT≤2 秒的嚴苛約束下,其支持的并發數提升達 8 倍,且在高并發負載中延遲可降低 4 倍以上。這一成果不僅印證了 " 存儲 - 計算協同優化 " 對 AI 推理效率的核心價值,更揭示了通過分布式存儲架構擴展顯存資源的技術路徑,能夠有效突破傳統 GPU 算力瓶頸,實現資源利用率的指數級提升。

當前,随着 DeepSeek 等大模型在千行百業的規模化落地,企業對推理效率與成本優化的需求愈發迫切。YRCloudFile KVCache 通過 PB 級緩存擴展能力,将存儲資源轉化為計算性能增益,為行業提供了兼顧高性能與低成本的實踐範例。這種以存儲架構創新驅動算力釋放的模式,或将成為企業構建下一代 AI 基礎設施的關鍵突破點,加速大模型從技術突破到商業閉環的演進進程。

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們