今天小編分享的互聯網經驗:騰訊混元深度思考模型T1正式版來了,吐字快、能秒回,解碼速度提升2倍,歡迎閱讀。
騰訊混元 3 月 21 日周五宣布,正式推出自研深度思考模型混元 T1 正式版,已在騰訊雲官網上線,輸入價格為每百萬 token 1 元,輸出價格為每百萬 token 4 元。
騰訊混元概括,混元 T1 正式版的特點為 " 吐字快、能秒回 "、" 擅長超長文處理 ",稱它是騰訊自研的強推理模型。
速度方面,混元 T1 正式版在可比參數量下的解碼性能高于行業 2 倍,首字秒出,吐字速度每秒 60 至 80token,具備優秀的長文處理能力。多項指标達到業界領先推理模型的水平,效果方面,混元 T1 正式版邏輯強、文風簡潔、復雜指令跟随準确,摘要幻覺低。
通過大規模強化學習,并結合數學、邏輯推理、科學和代碼等理科難題的專項優化,混元 T1 正式版進一步提升了推理能力。
在體現推理模型基礎能力的常見評估指标中,如大語言模型(LLM)評估增強數據集 MMLU-PRO 中,混元 T1 取得 87.2 分,僅次于得分 89.3 的 OpenAI o1,高于得分 86.1 的 OpenAI GPT 4.5 和得分 84 的 DeepSeek R1。
在 CEval、AIME、Zebra Logic 等中英文知識及競賽級數學、邏輯推理的公開基準測試中,混元 T1 的成績也達到業界領先推理模型的水平,其中,邏輯推理得分 93.1,高于前述三個模型 o1、GPT 4.5 和 R1。
混元 T1 正式版的強大推理能力源于,騰訊沿用混元 Turbo S 的架構,采用 Hybrid-Mamba-Transformer 融合模式。這是工業界首次将混合 Mamba 架構無損應用于超大型推理模型。
上述架構有效降低了傳統 Transformer 結構的計算復雜度,減少了 KV-Cache 的内存占用,從而顯著降低了訓練和推理成本。
混元 T1 在超長文本推理領網域也展現出獨特優勢。
基于出色的長文捕捉能力,混元 T1 能有效解決長文推理中常見的上下文丢失和長距離信息依賴問題。同時,混合 Mamba 架構針對長序列處理進行了專項優化,通過高效的計算方式,在确保長文本信息捕捉能力的同時大幅降低資源消耗,在相近的激活參數量下,實現了解碼速度提升2倍。
在上線全新推理模型之前,本周一,騰訊混元模型首次登上了海外權威大模型競技場 Chatbot Arena 的榜單,跻身全球 Top 15。一同上榜的還有阿裡巴巴本月 6 日發布的通義千問最新開源模型 QwQ-32B。
不同于其他測評,Chatbot Arena 的測評人是 C 端用戶——用戶在平台上以匿名方式與多個模型互動,然後投票決定哪個模型更好,從而根據分數生成排行榜。這種測評也被看成是大模型直接 PK 的競技場,簡單直接。
騰訊混元模型在中文基礎能力測試中也表現突出。本周二發布的《中文大模型測評基準 SuperCLUE 3 月報告》中,騰訊混元位列基礎模型國内第二,綜合實力穩居國内大模型第一梯隊。