今天小編分享的科學經驗:阿裡推理模型一戰封神!32B硬剛671B DeepSeek,1/10成本,蘋果筆記本可跑,歡迎閱讀。
起猛了,Qwen 發布最新 32B 推理模型,跑分不輸 671B 的滿血版 DeepSeek R1。
都是杭州團隊,要不要這麼卷。
QwQ-32B,基于 Qwen2.5-32B+ 強化學習煉成。
之後還将與 Agent 相關的功能集成到推理模型中:
可以在調用工具的同時進行進行批判性思考,并根據環境反饋調整其思考過程。
QwQ-32B 的權重以 Apache 2.0 許可證開源,并且可以通過 Qwen Chat 在線體驗。
手快的網友直接就是一個本地部署在 m4max 芯片蘋果筆記本上。
也有網友連夜 at 各大第三方 API 托管方,趕緊起來幹活了。
目前 QwQ-32B 還未放出完整技術報告,官方發布頁面對強化學習方法做了簡短說明:
從一個冷啟動檢查點開始,實施了由 Outcome Based Reward 驅動的強化學習(RL)擴展方法。
在初始階段專門針對數學和編碼任務擴展強化學習,沒有依賴傳統的獎勵模型,而是使用一個數學問題準确性驗證器來确保最終解決方案的正确性,并使用一個代碼執行伺服器來評估生成的代碼是否成功通過預定義的測試用例。
随着訓練輪次的推進,兩個領網域的性能都呈現持續提升。
在第一階段之後,為通用能力增加了另一階段的強化學習,它使用來自通用獎勵模型的獎勵和一些基于規則的驗證器進行訓練。
團隊發現,這一階段少量步驟的強化學習訓練可以提高其他通用能力的性能,如遵循指令、符合人類偏好以及智能體性能,同時在數學和編碼方面不會出現顯著的性能下降。
此外在 ModelScope 頁面,還可以看出 QwQ 32B 是一個密集模型,沒有用到 MoE,上下文長度有 131k。
對此,有亞馬遜工程師評價不用 MoE 架構的 32B 模型,意味着可以在單台機器上高效運行。
DeepSeek 沒有問題,很強大,但要托管他且盈利需要一個大型集群,還需要使用 DeepSeek 最近開源的一系列通信庫。
……另一方面 QwQ 32B 可以減少由流水線并行、專家并行帶來的復雜性。
如果将 QwQ 32B 添加到代碼能力與輸出 token 成本的圖表中,可以看到它以約 1/10 的成本達到了 DeepSeek-R1 與 o3-mini-high 之間的性能。
在線體驗:
https://chat.qwen.ai
https://huggingface.co/spaces/Qwen/QwQ-32B-Demo
參考鏈接:
[ 1 ] https://qwenlm.github.io/blog/qwq-32b/
[ 2 ] https://x.com/Alibaba_Qwen/status/1897366093376991515