今天小編分享的科技經驗:阿裏開源推理模型QwQ!可聯網搜索,思維鏈裸奔,開發者玩瘋了,歡迎閲讀。
智東西 2 月 25 日報道,今天,阿裏通義千問團隊推出 QwQ-Max-Preview 深度思考模型,并支持聯網搜索,展現出超強的通用能力,不僅現場鋭評了最新的《哪吒 2》電影,還能寫代碼、做數學題,并可以勝任創意寫作、遊戲開發等開放性任務。這款模型會在不久後開源,目前已在通義千問的新官網上線,僅需點擊聊天框左下角的 " 深度思考(QwQ)" 按鈕即可體驗。
QwQ-Max-Preview 的博客文章有滿屏醒目的顏文字,并附上跳轉到體驗頁面和 Discord 的鏈接,還特别标注出這篇博客是正是由新模型親自操刀的,模型撰寫博客時的思考過程也被一并呈現在文内。
體驗鏈接:https://chat.qwen.ai/
Discord 鏈接:https://discord.com/invite/yPEP2vHTu4
在 DeepSeek 推出 DeepSeek-R1 深度思考模型後,阿裏和騰訊都争相推出了類 R1 的深度推理模型。QwQ-Max-Preview 基于 Qwen2.5-Max 構建,在數學、編程以及通用任務中展現了更強的能力,同時在與 Agent 相關的工作流中也有不錯的表現。作為即将發布的 QwQ-Max 的預覽版,這個版本還在持續優化中。
通義千問團隊計劃在不久的将來以 Apache 2.0 許可協定開源發布 QwQ-Max 以及 Qwen2.5-Max。此外,通義千問計劃面向全球用户推出 Qwen Chat App,并開源更适合端側的小尺寸推理模型。
博客内,通義千問團隊放出了多個實測案例。
通義千問的深度思考模型能與聯網功能結合,根據實時互聯網信息進行推理,先來看看通義千問是怎麼評價《哪吒 2》的。在打開深度思考和聯網搜索功能後,千問快速查詢互聯網信息,并在思考過程中與答案裏都清晰地引用信源。
下方是 QwQ 對《哪吒 2》的評價,截圖後由 Qwen2.5-VL-72B-Instruct 翻譯:
下一個案例主要展現了模型的代碼能力。提示詞為 " 創建一個 p5.js 腳本,用于在旋轉的球體内創建 100 個彈跳的黃色小球。小球被限制在球體内,并且正确處理了碰撞檢測。球體緩慢旋轉以產生動态效果。"
長時間思考後,QwQ-Max-Preview 輸出了 71 行代碼,并附上了對代碼主要功能的描述和使用指南,可以説是十分全面了。復制代碼并運行後,可以看到動畫的效果基本符合提示詞要求。
不過,當智東西将同款提示詞甩給體驗鏈接中的 QwQ-Max-Preview,它給出的代碼運行後可以説是 " 車禍現場 ",黃色小球漫天飛舞,完全忽視了 " 小球被限制在球體内 " 這一要求。這一現象或許是由于預覽版本尚不穩定。
接下來的測試任務是遊戲開發。QwQ-Max-Preview 收到的需求是:" 在同一個 HTML 檔案中創建一個遊戲。發揮你的想象力,将俄羅斯方塊和 2048 遊戲結合成一個遊戲。"
模型開發出的新遊戲确實将兩款遊戲的玩法結合了起來,原版 2048 遊戲是通過滑動方塊進行相同數字的消除,而新遊戲中數字将會從上方掉落,需要玩家進行操作并消除。
這款模型還能勝任更為復雜的遊戲開發任務,例如下方提示詞這種帶調整的:
創建一個棋盤遊戲網頁,顯示一個六邊形網格,就像在《卡坦島》遊戲中一樣。每個六邊形網格都标有從 1 到 N 的數字,其中 N 是六邊形格子的總數。使其具有通用性,以便可以使用滑塊更改 " 環 " 的數量。例如,在《卡坦島》中,半徑為 3 個六邊形。請使用單個 HTML 頁面。
案例中模型對提示詞的理解還是比較到位的,拖動滑塊确實可以修改環的數量。
不過,在我們用同樣提示詞進行的實測中,完成效果依舊不太理想,從六邊形的形狀到格子的排列,都與原提示詞的要求有些偏差,還出現了超出顯示範圍的問題。或許在未來正式版發布後,這些問題能得到解決。
通義千問思考模型本次還融入了 Agent 能力,支持工具選擇,不過目前的體驗版本尚不支持。在博客文章中提供的案例裏,可以看到這些工具包括影像生成、物流追蹤、二維碼生成、港股行情等。
示例中,測試人員選擇了二維碼生成器和影像生成兩款工具,要求模型生成一個穿着白色連衣裙的女孩,然後展示一個指向 taobao.com 的二維碼圖片。
生成結果是這樣的,可以看到模型選擇了二次元的畫風,畫面内容符合要求,二維碼實測也可以跳轉至淘寶官網。
據通義千問團隊介紹,本次他們既會開源滿血版思考模型,也将推出輕量級的變體,還會将其融入應用,此舉是為了讓不同層次用户都能體驗到這款模型的能力。他們也邀請全球開發者社群對這些模型進行實驗、優化和擴展,探索從教育工具到 agent 等多樣化應用場景。
QwQ-Max-Preview 的發布及将要到來的開源,意味着阿裏也正式加入了這波推理模型的開源潮。阿裏的 Qwen 系列模型作為當今全球影響力最大的開源模型家族之一,衍生模型數量已經超過 9 萬個,還霸榜了 Hugging Face 開源榜單的全球前 10 名。在正式版的 QwQ-Max 開源發布後,或許還會給全球開發者帶來更多的驚喜。