今天小編分享的科技經驗:騰訊推出「快思考」:API 成本只有 DeepSeek 不到一半,歡迎閲讀。
最近,騰訊元寶可以説是「殺瘋了」,先是多款產品接入 deepseek,推出自研混元 T1 模型,又是猛推流,一度超越字節 " 豆包 " 登頂中國區 App Store 免費榜第二,又是入駐微信生活服務 " 九宮格 "。
在各家大模型紛紛推出深度思考模型的同時,騰訊混元又「反常」地推了一個快思考模型 Turbo S。
2 月 27 日,騰訊混元自研的快思考模型 Turbo S 正式發布,目前已在騰訊雲和元寶上線。
區别于 Deepseek R1、混元 T1 等需要 " 想一下再回復 " 的慢思考模型,混元 Turbo S 能夠實現 " 秒回 ",吐字速度提升一倍,首字時延降低 44%,同時在知識、數理、創作等方面也有突出表現。通過模型架構創新,Turbo S 部署成本也大幅下降,持續推動大模型應用門檻降低。
有研究表明,人類約 90% — 95% 的日常決策依賴直覺,快思考正如人的 " 直覺 ",為大模型提供了通用場景下的快速響應能力,而慢思考更像理性思維,通過分析邏輯提供解決問題思路。快思考和慢思考的結合和補充,可以讓大模型更智能、更高效地解決問題。
據介紹,通過長短思維鏈融合,騰訊混元 Turbo S 在保持文科類問題快思考體驗的同時,基于自研混元 T1 慢思考模型合成的長思維鏈數據,顯著改進了理科推理能力,實現模型整體效果提升。
作為旗艦模型,Turbo S 未來将成為騰訊混元系列衍生模型的核心基座,為推理、長文、代碼等衍生模型提供基礎能力。
基于 Turbo S,通過引入長思維鏈、檢索增強和強化學習等技術,騰訊自研了推理模型 T1,該模型已在騰訊元寶上線,用户可以選擇 Deepseek R1 或騰訊混元 T1 模型進行回答,具體操作上,在元寶中選擇 Hunyuan 模型,點亮 T1 即為深度思考,不點亮則為 Turbo S。
開發者和企業用户已經可以在騰訊雲上通過 API 調用騰訊混元 Turbo S,即日起一周内免費試用。定價上,Turbo S 輸入價格為 0.8 元 / 百萬 tokens,輸出價格為 2 元 / 百萬 tokens,相比前代混元 Turbo 模型價格下降數倍,是 deepseek API 成本的 1/2-1/4,團隊稱「比大模型界的拼多多還便宜」。另外,混元滿血 T1 将在 3 月初發布。
在 3 月 2 日騰訊混元的直播裏,騰訊混元專家團隊對這次推出的快思考模型做出了詳解,極客公園整理重點如下:
為什麼要做「快思考」?
團隊通過分析和觀察發現,用户約 90% 的請求都可以依靠大模型的 " 直覺 "(即快思考模型),無需深度思考就能精準簡潔地給出答案,所以針對這些請求需要模型能更快、更準地回應。
對于剩下的約 10% 的請求,需要模型能進行深度思考甚至反思,從而給出更精準的答案。
同時,快思考模型不僅成本更低,還具備強大的數據融合能力,能夠融入 MySQL 模型或 Max 模型中的優質數據。
Turbo S 借鑑了騰訊的慢思考模型 Hunyuan T1 的數據,該模型使用一種稱為長思維鏈合成的技術進行訓練。這有助于 Turbo S 在保持其速度優勢的同時,通過多步驟問題進行推理,使得對于其餘 10% 需要反復反思思考的問題也能得到較精準答案。
技術解析:模型架構 / 工程優化
在業界通用的多個公開 Benchmark 上,騰訊混元 Turbo S 在知識、數學、推理等多個領網域展現出對标 DeepSeek V3、GPT 4o、Claude3.5 等業界領先模型的效果表現。
* 表格中,其它模型的評測指标來自官方評測結果,官方評測結果中不包含部分來自混元内部評測平台
架構方面,通過創新性地采用了 Hybrid-Mamba-Transformer 融合模式,混元 Turbo S 有效降低了傳統 Transformer 結構的計算復雜度,減少了 KV-Cache 緩存占用,實現訓練和推理成本的下降。
傳統 Transformer 架構存在以下缺陷 :
計算復雜度高,序列維度呈平方級關系,在訓練和推理時復雜度高;
推理時需要 KV-Cache,且随着序列長度增加線性增加,部署成本高;預測時時間成本高,每步預測因疊加 KV-Cache 與序列長度呈線性關系,越往後生成越慢,尤其對于 Mamba 線性 Attention 機制,每步預測都是 O1 復雜度,所以需要做更高效的 attention 或甚至 linear 的 attention,目前行業内已有一些相關探索方案如 window attention、mobile、NSA 等,都是通過不同方式壓縮計算復雜度。
Hybrid-Mamba-Transformer 融合架構是混元 Turbo S 中的一項突破性架構創新,通過融合兩種強大的架構,平衡效率和上下文推理能力:
Mamba 是一種狀态空間模型(SSM),專為高效處理長序列而設計,在内存使用上比 Transformer 更為節省。與 Transformer 不同,後者在處理長文本時會遇到 KV-cache 内存的平方級擴展問題,而 Mamba 可以在不產生過多計算開銷的情況下處理更長的文本,更适合閲讀、總結和生成長文檔的回答(例如法律文本、研究論文等)。
盡管 Mamba 高效,但它在捕捉復雜的上下文關系方面不如 Transformer。Transformer 擅長理解復雜的模式和依賴關系,特别适合推理密集型任務,如數學運算、邏輯推理和問題解決,适用于多步驟推理、代碼生成和深度上下文理解。
混元 Turbo S 首次将 Mamba 應用于超大規模 MoE 模型 MoE(專家混合模型)通過每次查詢激活一部分參數,從而提高計算效率,在保持精度的同時充分利用了 Mamba 的高效性,同時也保留了 Transformer 在推理任務中的優勢。這一突破不僅降低了訓練和推理成本,還提升了速度和智能水平。
算法做到了哪些不一樣的工作?
長短思維鏈的融合。
通過長短思維鏈融合,對于需反復推理反思的問題也能得到更精準答案, T1 模型可得到相對長鏈數據,将長鏈數據和短鏈數據融合訓練後采樣,采樣依據正确性和長度正确性,采用規則方法和濾波 model case ,從而提升模型整體能力,尤其在數學、代碼、邏輯等強推理任務上表現更好,且短鏈模型能很好地融合長鏈能力,體驗更佳。
即短鏈模型其實體驗更佳,通過融合長鏈也能有很好的推理能力。
scaling law 還沒結束
GPT-4.5 是短鏈模型天花板的一個存在,但 API 的成本非常高,以百萬 tokens 計算約為 150 美元,約是 Turbo S 成本 500 倍,且據推測,GPT-4.5 的激活參數量達萬億級别。因此,Turbo S 等快思考模型的出現,正是為了在保證響應速度的同時,降低成本并保持較好的性能。
目前 scaling 遠未結束。從數據量來看,不管是模型 size 的 scaling 還是訓練數據的 scaling,現在中文互聯網上可獲取數據量各家差不多,誰能通過獲取或合成方式獲得更多數據量對模型 performance 來説是關鍵。
标注數據方面,更專業标注團隊對模型表現影響大,如小説創作、醫療方向等,擁有更專業标注團隊和數據的模型表現會更好,整體來看,在數據、算法、算力工程優化等方面對 scaling 的探索都遠未結束。