今天小編分享的科學經驗:Qwen2.5更新百萬超長上下文,推理速度4.3倍加速,網友:RAG要過時了,歡迎閲讀。
國產大模型,最近有點卷。
這不,,Qwen2.5 系列又雙叒突然更新了——
一口氣讀三本《三體》不費事,并且45 秒左右就能完整總結出這 69 萬 token 的主要内容,be like:
還真不是糊弄事兒," 大海撈針 " 實驗顯示,這個全新的Qwen2.5-Turbo在 100 萬 token 上下文中有全綠的表現。
也就是説,這 100 萬上下文裏,有細節 Qwen2.5-Turbo 是真能 100% 捕捉到。
沒錯,Qwen2.5 系列新成員Qwen2.5-Turbo,這回主打的就是支持超長上下文,并且把性價比卷出了花兒:
上下文長度從 128k 擴展到1M,相當于 100 萬個英文單詞或 150 萬個漢字,也就是 10 部長篇小説、150 小時語音記錄、30000 行代碼的量。
更快的推理速度:基于稀疏注意力機制,處理百萬上下文時,首字返回時間從 4.9 分鍾降低到了 68 秒,實現了4.3 倍加速。
關鍵是還便宜:0.3 元 /1M tokens。這意味着,在相同成本下,Qwen2.5-Turbo 可以處理的 token 數量是 GPT-4o-mini 的 3.6 倍。
看到這波更新,不少網友直接爆出了 ***:
有人直言:這麼長的上下文這麼快的速度下,RAG 已經過時了。
還有人開啓大贊特贊模式:現在在開源領網域,Qwen 比 Llama 還值得期待了。
除了一口氣啃下 3 本長篇小説,Qwen 官方還展示了 Qwen2.5-Turbo 超長上下文的更多實用功能。
比如快速掌握一整個代碼庫的信息。
如 Demo 所演示,上傳包含 Qwen-Agent 倉庫中所有代碼檔案的文本檔案(13.3 萬 token),只需幾秒鍾,大模型就能讀完全部代碼并準确輸出各種細節。
用户:這個存儲庫中有哪些 Agent 子類?提供它們的檔案路徑。
Qwen2.5-Turbo:
一口氣讀 7 篇論文,完成論文分類、論文摘要,也不在話下:
我們也實際測試了一下。可以看到,在沒有給任何提示的情況下,Qwen2.5-Turbo 能準确掌握不同論文的細節信息,并完成對比分析。
除了大海撈針實驗之外,Qwen 團隊還在更復雜的長文本任務上測試了 Qwen2.5-Turbo 的能力。
包括:
RULER:基于大海撈針的擴展基準,任務包括在無關上下文中查找多 " 針 " 或回答多個問題,或找到上下文中出現最多或最少的詞。數據的上下文長度最長為 128K。
LV-Eval:要求同時理解眾多證據片段的基準測試。Qwen 團隊對 LV-Eval 原始版本中的評估指标進行了調整,避免因為過于嚴苛的匹配規則所導致的假陰性結果。數據的上下文長度最長為 128K。
Longbench-Chat:一個評價長文本任務中人類偏好對齊的數據集。數據的上下文長度最長為 100K。
結果顯示,在 RULER 基準測試中,Qwen2.5-Turbo 取得了93.1 分,超過了 GPT-4o-mini 和 GPT-4。
在 LV-Eval、LongBench-Chat 等更接近真實情況的長文本任務中,Qwen2.5-Turbo 在多數維度上超越了 GPT-4o-mini,并且能夠進一步擴展到超過 128 tokens 上下文的問題上。
值得一提的是,現有的上下文長度擴展方案經常會導致模型在處理短文本時出現比較明顯的性能下降。
Qwen 團隊也在短文本任務上對 Qwen2.5-Turbo 進行了測試。
結果顯示,Qwen2.5-Turbo 在大部分任務上顯著超越了其他上下文長度為 1M tokens 的開源模型。
和 GPT-4o-mini 以及 Qwen2.5-14B-Instruct 相比,Qwen2.5-Turbo 在短文本任務上的能力并不遜色,但同時能 hold 住 8 倍于前兩個模型的上下文。
此外,在推理速度方面,利用稀疏注意力機制,Qwen2.5-Turbo 将注意力部分的計算量壓縮到了原來的 2/25,在不同硬體配置下實現了 3.2-4.3 倍的加速比。
現在,在 HuggingFace 和魔搭社區,Qwen2.5-Turbo 均提供了可以在線體驗的 Demo。
API 服務也已上線阿裏雲大模型服務平台,跟 OpenAI API 是兼容的。
至于模型權重什麼時候開源?
阿裏通義開源負責人林俊旸的説法是:目前還沒有開源計劃,但正在努力中。
反正 HuggingFace 聯合創始人 Thomas Wolf 是幫咱催上了(手動狗頭)。
Demo 傳送門:
https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo
https://www.modelscope.cn/studios/Qwen/Qwen2.5-Turbo-1M-Demo
參考鏈接:
https://qwenlm.github.io/zh/blog/qwen2.5-turbo/