今天小編分享的科技經驗:騰訊逆襲!發布混元T1正式版,實戰不輸DeepSeek-R1,便宜3/4,歡迎閱讀。
作者 |程茜
編輯 |漠影
智東西 3 月 21 日報道,今夜,騰訊正式将混元大模型系列的深度思考模型更新為混元 -T1 正式版。
T1 是騰訊自研的強推理模型,吐字速度達到60~80token/s,在實際生成效果表現中遠快于 DeepSeek-R1。
該模型的前身是,今年 2 月中旬混元團隊在騰訊元寶 APP 上線的基于混元中等規模底座的混元 T1-Preview(Hunyuan-Thinker-1-Preview)推理模型。
相比于 T1-Preview,T1 正式版基于騰訊混元 3 月初發布的業界首個超大規模 Hybrid-Transformer-Mamba MoE 大模型 TurboS 快思考基座,通過大規模後訓練擴展了推理能力,并進一步對齊人類偏好,這也是工業界首次将混合 Mamba 架構無損應用于超大型推理模型。
T1 在多個公開數據集的評測結果顯示,在 MMLU-pro、CEval、AIME、Zebra Loigc 等中英文知識和競賽級數學、邏輯推理指标上基本持平或略超 R1。
目前,T1 已在騰訊雲官網上線,輸入價格為每百萬 tokens 1 元,輸出價格為每百萬 tokens 4 元,輸出價格為 DeepSeek 标準時段的 1/4,與 DeepSeek 優惠時段一致。
▲ DeepSeek API 價格
生成速度超 DeepSeek-R1復雜指令、長文摘要、角色扮演均能勝任
在知識問答場景,騰訊混元研究團隊展現了 T1 和 DeepSeek 生成效果的對比。
第一個提示詞是 " 醋酸乙酯能與水混合嗎 "。可以看到 T1 和 DeepSeek-R1 整體生成結果的長度、結果都相近,不過 T1 的生成速度明顯更快。
第二大考驗難題是關于理科數學推理,這一問題中對于模型的限制條件更多,其思維過程更長。從輸出結果來看,T1 和 DeepSeek-R1 生成的結論一致,速度仍然是 T1 更快。
第三大難題考驗的是復雜指令跟随能力。讓 T1 對出下聯,提示詞中給出的上聯是 " 深深淺淺溪流水 "。這其中的難點在于,模型要遵循一致的三點水偏旁、前四個字是 AABB 結構。T1 的思考過程中,準确分析出了上聯的特點,并在經過多次錯誤嘗試後給出了答案:" 洋洋灑灑波濤湧 "。
第四大難題是通用任務,其提示詞為開放問題 " 生成一個朋友圈文案,主題是漫漫人生路 ",這之中并沒有給出明确的風格指令要求,屬于開放性問題。
T1 還可以作為生產力工具,提升用戶的工作效率,下一個 Demo 演示的是 T1 長文總結摘要的能力。
提示詞時 " 針對微軟收購暴雪的 4000 字左右新聞報道,要求 T1 總結一下文章内容 "。在輸出結果中,T1 不僅總結了文章的主要内容,還提煉出新聞報道中的多個關鍵數字。
最後一個演示是關于模型的角色扮演能力。提示詞為 " 請扮演李白,語氣符合李白特征,猜一個字謎:告狀無效 "。T1 的思考過程重點分析了字謎,得出結果為 " 皓 " 後,按照李白的口吻輸出了答案并賦詩一首。
多項測試集結果對标 R1沿用混元 Turbo S 創新架構
混元 -T1 除了在各類公開 Benchmark、如 MMLU-pro、CEval、AIME、Zebra Loigc 等中英文知識和競賽級數學、邏輯推理指标上基本持平或略超 R1 外,在騰訊内部人工體驗集評估上也能對标,其中文創指令遵循、文本摘要、Agent 能力方面略勝于 R1。
在測試基座模型對于廣泛知識理解的記憶和泛化能力的數據集 MMLU-PRO 上,T1 得分僅次于 o1,在 CEval、AIME、Zebra Logic 等中英文知識及競賽級數學、邏輯推理的公開基準測試中,T1 的表現與 R1 基本持平或略超 R1。
從技術角度來看,混元 T1 正式版沿用了混元 Turbo S 的創新架構,采用Hybrid-Mamba-Transformer 融合模式,這也是工業界首次将混合 Mamba 架構無損應用于超大型推理模型。這一架構能降低傳統 Transformer 架構的計算復雜度,減少 KV-Cache 内存占用,降低訓練和推理成本。
在長文本推理方面,TurboS 的長文捕捉能力可以有效解決長文推理中的上下文丢失和長距離信息依賴難題。Mamba 架構可專門優化長序列處理能力,并通過高效計算方式在保證長文本信息捕捉能力的同時,降低計算資源的消耗,使得模型相同部署條件下、解碼速度快 2 倍。
模型後訓練階段,騰訊混元研究團隊将96.7%的算力投入到強化學習訓練,重點圍繞純推理能力的提升以及對齊人類偏好的優化。
數據方面,T1 的高質量 Prompt 收集主要集中于復雜指令多樣性和不同難度分級的數據。研究人員基于世界理科難題,收集了涵蓋數學 / 邏輯推理 / 科學 / 代碼等的數據集,包含從基礎數學推理到復雜科學問題解決的問題,然後結合 ground- truth 的真實反饋,确保模型在面對各種推理任務時的表現。
訓練方案上,T1 采用課程學習的方式逐步提升數據難度,同時階梯式擴展模型上下文長度,使得模型推理能力提升的同時學會高效利用 token 進行推理。
研究人員在訓練策略方面,參考了經典強化學習的數據回放、階段性策略重置等策略,提升了模型訓練長期穩定性 50% 以上。
在對齊人類偏好階段,其采用 self-rewarding(基于 T1- preview 的早期版本對模型輸出進行綜合評價、打分)+reward mode 的統一獎勵系統反饋方案,指導模型進行自我提升。
結語:騰訊混元模型迭代加速
騰訊混元模型系列今年進入快速迭代期,其陸續推出騰訊混元深度思考模型 T1 和自研快思考模型 Turbo S。此前,混元 Turbo S 在技術突破方面實現了首字時延降低 44%,并已應用于騰訊元寶等騰訊内部產品。
此次發布的騰訊混元深度思考模型 T1 預覽版也早已上線騰訊元寶,可以看出,騰訊内部業務和場景已經全面接入混元系列大模型能力,如騰訊元寶、騰訊雲、QQ、微信讀書、騰訊新聞、騰訊客服等。
在此基礎上,騰訊混元團隊正在探索新的研究思路,找到降低大模型幻覺、降低訓練成本等的新解題思路。