今天小編分享的科技經驗:我在通義 APP 體驗了全球最強開源模型 Qwen 3,它改變了我對國產 AI 的期待,歡迎閲讀。
一覺醒來,全球開源的王座更替了,不是 R2。好消息是,中國用户依然是最大的受益者。
今天凌晨,阿裏開源了新一代自研模型 Qwen 3 ( 千問 3),性能全面超越 DeepSeek-R1、OpenAI o1 模型,一上線就登頂全球開源模型王座。
千問 3 也是國内首個「混合推理模型」,同時擁有閃電俠的反應和福爾摩斯的深思熟慮,雙核驅動,同時在推理能力、指令遵循、工具調用、代碼、多語言能力等方面均大幅增強。
目前在通義 APP 以及通義網頁版 tongyi.com,就能直接體驗這個全球最強的開源模型。
APPSO 也第一時間上手體驗了通義 APP,而體驗的第一感受是:不止快和準,還有種久違的底氣感。
國產 AI 終于可以和「弱智吧」大戰 300 回合
需要特别説明的是,目前通義 APP 默認搭載的是 Qwen3-235B-A22B 模型。
這是一款主打「混合推理」性能的旗艦級模型。如果你有不同需求,也可以在模型選擇器中切換至穩定高效、适合企業部署的 Qwen 3-32B,或者支持高性能深度思考的 QWQ-32B。
先來一道經典的推理題,看看目前搭載 Qwen3-235B-A22B 的通義 APP,是否已經能夠解答我們之前碰到的一些「疑難雜症」。
有個國王想将公主嫁給三個公子裏面最聰明的一個。國王出了一個絕對公平的測試去分辨出誰是最聰明。
三個公子在一個房間裏繞圈對坐着,國王向他們展示 5 頂帽子,2 頂黑色,3 頂白色。然後他們被蒙上眼,他們各人的頭上都被蓋上了一頂帽子,另外兩頂帽子就放在另外一間房間中。都戴好帽子并且摘下眼罩後,國王告訴他們誰能夠最快推論到自己頭上帽子的顏色,他就能娶下公主。
現在你就是其中一個公子,你看到 2 頂白色的帽子在其他公子頭上。而過了一些時間,你察覺到其他公子都未能推能或不敢猜測。假設你知道其他公子也是非常聰明的,那麼,你的帽子是白色還是黑色 ?
為測試其純粹推理能力,我們事先關閉了聯網搜索功能,僅使用旗艦模型。提出問題後,千問 3 僅用 24 秒,便靠自身硬推理能力得出了正确答案。
細節上更值得一提的是,回答完成後,通義還會自動配上語音朗讀——音色自然、節奏流暢,聽起來頗為舒适。當然,嫌打擾的話,也可以一鍵關閉右上角小喇叭。
沒有藏着掖着,千問 3 的思考過程也是可見的,從回答邏輯來看,整個推理過程清晰可見,思路層層遞進,條理分明,以及甚至還會反復驗證回答的準确性。
作為國内首個「混合推理模型」,千問 3 實現了推理模式與普通對話模式的自由切換。不過實測,當你向它提出一個簡單問題「10-5=?」時,它依然會本着嚴謹态度進行深度思考,但生成速度并不會因此拖慢,很快就能給出答案。
上點難度,來一道更復雜的。蛇年蛇月蛇日蛇時即将到來,2025 年會出現幾次這種特殊時間節點?
這是一道結合了農歷、幹支紀年等傳統歷法知識的數據推理題。即便是對中國文化體系較熟悉的人,解答這道題也需多輪推算與核對,稍有不慎便會出錯。
而對于不熟悉農歷體系的 AI,更是挑戰巨大,但千問 3 幾乎沒有猶豫,快速且準确地給出了答案:3 次。
此外,我們還抛出了終極概率問題:讓一只猴子在打字機上随機敲擊,時間無窮,是否能打出完整的莎士比亞全集?在這一問題下,千問 3 不僅給出了數學推導,還在下方自然生成了延伸追問,貼合主題,引發進一步思考。
「弱智吧」被認證為最佳中文 AI 訓練庫,是人類面對 AI 大軍的最後堡壘,那「玉皇大帝住的是平流層還是對流層?」這是一個讓人會心一笑的題目,卻也是檢驗千問 3 模型幽默感與文化常識結合力的絕佳切口。
它先嚴謹地引用神話描述,明确指出玉皇大帝居住在天宮,并解釋了天宮與大氣層的物理區别;緊接着又補充了網絡趣味解讀(非正統觀點),既正經回答,但也适度皮一下。
當然,千問 3 的回答也全非毫無依據,底部附上的參考來源也增添了幾分説服力。
國劇版《哈利波特》?跨界創作有驚喜
生成式 AI 最高頻的應用,仍是案頭内容生成。
那換個角度,能否讓千問 3 生成國劇版的《哈利波特與魔法石》的劇本?千問 3 哐哐一頓開寫,劇本中融入了西皮、二黃、快板等多種國劇唱腔,情緒變化與傳統程式一脈相承。
而唱詞則采用對仗工整、押韻自然的古典文風,既符合國劇語言,又不失哈利波特故事的奇幻感。
當然,文化跨界,最怕水土不服,諸如「獅鹫騰躍震四隅」等唱詞來翻譯霍格沃茨四大學院,既保留了意象張力,又避免了直接照搬西方術語的生硬感。
作為一個習慣于收藏優質 AI 回答的用户,我十分喜歡通義 APP 「添加至随手記」的功能,只需長按内容,便可一鍵收藏,而如果想與好友分享,也可以直接生成跳轉鏈接,輕松傳遞。
「煙鎖池塘柳」之所以被譽為千古絕對,很大程度也是因為暗含「金木水火土」五行,通過調用知識庫的能力,千問 3 給出的回答是,炮鎮海城樓,字數相同,平仄相對。
在語言理解方面,Qwen3 模型支持高達 119 種語言和方言。
處理經典句子「Love loves to love love 」時,普通翻譯很容易淪為生硬堆砌,但千問 3 給出了更優雅的版本:「愛之深契,恒慕所愛之真」,既保留了英文原句的疊詞美感,又在中文中構建出了詩意的空間,完美體現了「信、達、雅」的翻譯标準。
一句話編程,我用通義做了一個寶可夢風的俄羅斯方塊遊戲
代碼是千問 3 此次改進的一大亮點。
在網頁版界面,只需打開頁面下方的「代碼模式」,輸入你的需求,它便能一鍵生成代碼。不僅如此,千問 3 還配備了指令優化和應用廣場,可以幫助你一邊寫一邊調,一邊學一邊用。
我的本意是想讓千問 3 創建一個偏寶可夢風格的俄羅斯方塊小遊戲。沒想到,千問 3 在生成初版代碼的同時,自帶的「潤色功能」幫助優化了我的原始指令。
創建一個基于 HTML/CSS/avaScript 的單檔案俄羅斯方塊遊戲,其中方塊元素設計成寶可夢風格。
遊戲包含以下功能:
遊戲界面 : 遊戲區網域為 400x600 像素的畫布,使用 CSS 設定背景色和邊框樣式。
不過,也許是出于版權敏感,生成的代碼并沒有直接使用寶可夢角色,而是巧妙地将方塊顏色設計帶有寶可夢的配色風格。
盡管如此,運行體驗依舊絲滑流暢。
不止于此,我又提出了另一個要求,希望通義幫我做一個帶有動畫效果的天氣卡片,要求是使用 HTML、CSS 和基礎 JavaScript,實現時間和天氣信息的動态更新。
通義給出的結果,再次讓人眼前一亮,不僅實現了功能需求,還在細節設計上加了小彩蛋,比如天氣變化時背景色漸變等。
體驗到這裏,我們得出的結論是:相比以往只注重「對錯」的模型,通義更像一個真正懂你需求的「第二大腦」。無論是推理、創作,還是編程,都能以一種兼具邏輯性與創造力的方式回應。
對于大多數用户來説,其實并不關注大模型的參數規格和各種榜單,只關心是否「好用」。
這裏「好用」标準通常有兩個層面,首先還是得依托基座模型的能力,另外更重要的是怎麼将模型能力產品化,帶給用户更友好的互動體驗。
正如 OpenAI 研究員姚順雨最近在博客中提到的觀點:「我們需要重新思考如何訓練 AI 以及如何衡量進展,這可能需要更接近產品經理的思維方式。」
這一晚的實測下來,APPSO 認為目前通義 APP 比較好地兼顧了這兩方面,跑得快、答得準、夠聰明,在一些容易遇到門檻的地方(比如編程指令自動潤色)會自然看到合适的互動細節,這一種少見的厚重感和生長力。
上一個長假前夕,DeepSeek R1 引爆了全球開源模型。這次五一假期之前,我們又迎來了千問 3,除了更強的模型,也有了互動更好的應用,将中國這股 AI 浪潮延續下去。
歡迎大家前往通義 APP 體驗千問 3,在留言區與我們分享更多有趣的玩法。
作者:李超凡、莫崇宇