今天小編分享的科學經驗:不用等R2了!第三方給新版DeepSeek V3添加深度思考,推理101秒破解7米甘蔗過2米門,歡迎閱讀。
DeepSeek 即将發布 R2??坊間傳聞越來越多了,且難辨真假。
1.2T 萬億參數,5.2PB 訓練數據,高效利用華為芯片……只能說如果有一半是真的都很牛了。
HuggingFace 創始人此時推薦 " 以不變應萬變 ",打開官方認證賬号的更新提醒,就能第一時間獲取通知。
抛開具體洩露數據是否準确,大家似乎有一個共識:如果真的有 R2,它的基礎模型會是新版 DeepSeek V3-0324。
之所以有很多人相信 R2 會在 4 月底發布,有一部分原因也是出于 R1 與 V3 之間相隔了一個月左右。
現在,等不及 DeepSeek 官方,開源社區已經開始自己動手給 V3-0324 加入深度思考了。
新模型 DeepSeek-R1T-Chimera,能力與原版 R1 相當,但速度更快,輸出 token 減少 40%,也是基于 MIT 協定開放權重。
相當于擁有接近 R1 的能力和接近 V3-0324 的速度,結合了兩者的優點。
而且做到這一點,不是靠微調或蒸餾,而是 DeepSeek V3-0324 和 R1 兩個模型融合而成。
新模型 R1T-Chimera 并非 DeepSeek 官方出品,而是來自德國團隊 TNG Technology Consulting。
該團隊此前也探索過可調專家混合(MoTE)方法, 讓 DeepSeek-R1 在推理部署時可以改變行為。
目前已知是選用了 V3-0324 的共享專家 +R1 與 V3-0324 的路由專家的混合體融合而來。
TNG 團隊表示最終結果令人驚訝,不僅沒有表現出融合模型的缺陷,相反,思考過程還比原版 R1 更緊湊有序。
暫沒有技術報告或更詳細的模型融合方法公布,要驗證它是否符合描述,就只能拉出來試一試了。
我們選用最新折磨 AI 的難題 "7 米長的甘蔗如何通過 2 米高 1 米寬的門?"。
原版 R1 思考了 13 秒就下了結論;R1T Chimera 在這裡卻足足思考了 101 秒,最終計算出可以通過。
雖然還是無法像人類一樣直觀的理解三維空間,讓甘蔗與門的平面垂直就可通過,但依然通過計算夾角與投影得出了結論。
在這 100 秒時間裡 R1T-Chimera 如何一步步思考出答案呢?
展開推理 token 可以發現,在簡單計算二維方案不可行後,它就已經想到了三維方案。
後面依然陷入了各種誤區,在旋轉甘蔗、彎曲甘蔗、計算 " 門的厚度 " 上走了彎路。
最終通過 " 揣摩出題人心理 " 走進正确的路線。
最終給出的答案非常嚴謹了。
雖然人類直覺上就能想出把甘蔗垂直起來通過這個方法,但仔細一想,題目中确實沒有給出 " 門後有多少空間這個條件 "。
細還是 AI 細。
關于 R1T-Chimera 的更多細節,大家還在等 TNG 團隊消息和更多第三方基準測試結果。
不過也有人注意到,KIMI K1.5 技術報告中也探索了模型融合方法。
具體來說是把長思維鏈(long-cot)模型和短思維鏈(short-cot)模型融合,直接對兩個模型的權重取平均值,獲得一個新模型,無需重新訓練。
不過在實驗中,這種簡單融合方法表現并不如這篇論文中提出的 Long2short 強化學習方法。
另一個在模型融合上有經驗的團隊是 Transformer 作者 Llion Jones 創辦的 Sakana AI。
早在 24 年初就結合進化算法提出以 block 為部門融合的方法。
随着更多團隊跟進這一路線,模型融合會不會成為 2025 年大模型的一大技術趨勢呢?歡迎在評論區留下你的看法。
HuggingFace:
https://huggingface.co/tngtech/DeepSeek-R1T-Chimera
在線試玩:
https://openrouter.ai/tngtech/deepseek-r1t-chimera:free
參考鏈接:
[ 1 ] https://x.com/tngtech/status/1916284566127444468
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
點亮星标
科技前沿進展每日見