今天小編分享的科技經驗:有了這個國產版 o1 模型,我想能在《鱿魚遊戲》裏活到最後,歡迎閲讀。
像人類一樣思考的 AI 離我們還有多遠?
在道格拉斯 · 亞當斯的科幻小説《銀河系漫遊指南》中,一個高緯度種族為了找到生命、宇宙以及任何事情的終極答案,設計一台超級電腦「Deep Thought」來計算。
「Deep Thought」經過 750 萬年的運算,得出了「42」這個答案。
而最科幻的往往是現實,即便是回答極其復雜的問題,AI 推理和思考可能只需要不到 1 分鍾。
OpenAI 今年 9 月發布推理模型 o1 後,人們開始意識到,在追求「更大」之後,AI 開始追求「更像」,推理能力成為 AI 進化的下一個重要拐點。
今天,我們發現号稱「中國版 OpenAI」的智譜也同樣上線了一款類 o1 的推理模型 GLM-Zero-Preview(GLM-Zero 的初代版本 )。
雖然這幾個月已經有多家公司紛紛上線推理模型,但在體驗完 GLM-Zero-Preview 後,我發現它還是有些新東西。
想要體驗 GLM-Zero-Preview,方法很簡單。
GLM-Zero-Preview 發布即上線,支持智譜清言用户免費使用,以及智譜開放平台 API 調用。現在,登陸「智譜清言」網頁和 APP,進入「Zero 推理模型」智能體,上傳文字或圖片即可免費體驗。
此外,GLM-Zero-Preview 的 API 也已同步上線智譜開放平台 bigmodel.cn。
附上體驗地址:
智譜清言
https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh
智譜開放平台
https://bigmodel.cn/dev/api/normal-model/glm-zero-preview
從「鱿魚遊戲」到量子力學,這個國產版 o1 輕松拿捏
最近,在熱播韓劇《鱿魚遊戲 2》中,一道雙手石頭剪刀布的遊戲簡單又刺激,這個遊戲增加策略推理和心理層面的博弈,在以生死為賭注的壓力下,難度還會增加。
但如果我帶着 GLM-Zero-Preview 去玩這個遊戲,活下來的概率就會大大增加。
「雙手石頭剪刀布是一個更為復雜的石頭剪刀布遊戲版本。玩家開始時使用雙手來表示石頭、剪刀或布的任意組合。在看到對手的選擇後,玩家必須同時舉起一只手,留下最終的選擇。」
怎麼玩這個獲勝概率更大?GLM-Zero-Preview 的回答詳盡且實用,羅列出各種提高獲勝效率的最優解。
科學和玄學有時也只有一線之差。今年不少寺廟被擠爆,在上班和上進之間選擇上香的芸芸眾生,求籤不難,但解籤卻要排上長隊,不想等怎麼辦?
那你可以試試求助 GLM-Zero-Preview。不僅免費效率高,而且解讀還非常有考究,AI 多少還是有點玄學在的。
「第七十七籤 呂後害韓信 中平 木有根來水有源,君當自此究其源 莫随道路人閒話,訟則終兇是至言」
談完玄學,談哲學。
前些年,有一道辯論題風靡一時,「美術館着火了,一幅名畫和一只貓,只能救一個你選誰?」在綜合考慮生命價值、道德原則及情感因素後,GLM-Zero-Preview 優先選擇救貓。
反復輸入相同問題,GLM-Zero-Preview 的答案始終如一,結果堅定且邏輯自洽。
遇事不決,還有量子力學。那在經典薛定谔貓實驗中,貓究竟是死是活?
先觀察 GLM-Zero-Preview 的思考邏輯,再看它給出的答案「在經典薛定谔貓實驗中,貓在盒子被打開之前處于既死又活的疊加态,直到觀測時才确定其生死狀态。」
細心留意,你還可以對得出的結果進行進一步的引用和追問。
在中文世界廣泛流傳的「愛因斯坦的謎題」同樣也可以作為考究 GLM-Zero-Preview 的邏輯推理能力。
有五個不同顏色的房子,每個房子裏住着一個不同國籍的人。每個居民喜歡不同的飲料,抽不同的香煙,并養着不同種類的寵物。已知:
英國人住在紅色房子裏;
瑞典人養狗;
丹麥人喝茶;
綠色房子是白色房子左邊的房子;
綠房子住的人喝咖啡;
抽香煙的德國人住在綠色房子裏;
挪威人住在第一座房子裏;
抽藍色香煙的人喝牛奶;
抽黃牌香煙的人養鳥;
抽藍色香煙的人住在挪威的左邊。
問題:誰養魚?
答案是德國人養魚,不知道你是否答對。
這道号稱世界上 98% 的人答不上來的難題,就這樣被 GLM-Zero-Preview 水靈靈地破解了。從繁瑣的推理步驟可以看出, GLM-Zero-Preview 的 CPU 在飛速運轉但還是很清醒。
繼續乘勝追擊,讓我們上點強度。
五個海盜發現了 100 個金币,每個海盜都必須投票決定如何分配金币。如果海盜多于一位,只有在超過一半的海盜同意分配方式時,金币才會按照該方式分配。如果海盜少于一位,他會自己拿走所有金币。每個海盜都希望保留盡可能多的金币,同時還希望活命。海盜 1 如何保證自己能得到最大利益而又能保存生命。
「 ( 97, 0, 1, 0, 2 ) 」,面對海盜分金問題,GLM-Zero-Preview 再次輕松拿捏。
相聲講究説學逗唱,其中有個名段子叫「報菜名」。
那麼問題來了,可否讓 GLM-Zero-Preview 寫段素菜版的「報菜名」,你别説,GLM-Zero-Preview 三下五除二就給出了新版本。
對了,GLM-Zero-Preview 同樣支持多模态識别能力。
随手拿一瓶飲料并讓 GLM-Zero-Preview「掃描」配料表,它能識别其中的科技與狠活嗎,我們拿前幾年爆火的飲料試了試,而該飲料也被調侃為「喝一口感覺是喝下整個元素周期表」。
它果然一一羅列出螢幕上的配料表,後續根據要求向我們展示了這些配料的作用。
大模型不擅長數學?國產 AI 已經 Next Level
推理模型 GLM-Zero 是 GLM 專注于增強 AI 推理能力的模型系列,擅長處理數理邏輯、代碼和需要深度推理的復雜問題。
那讓我們先來一個説簡單也簡單,説難也難的「國際象棋盤與麥粒」問題。
若在國際象棋盤上放置麥粒,第 1 個棋格放 1 粒,此後每一棋格放置的麥粒數是前一棋格的 2 倍,問放滿棋盤上所有棋格需要多少麥粒?
經過一番思考,GLM-Zero-Preview 最終得出了正确答案,展現了其強大的計算能力。
此前蘋果發布的一篇論文指出,大模型并未真正理解數學概念。一旦題目加上幹擾條件,模型的準确率就會下降,我們也試了試。
從「打電話每分鍾 10 分錢,打 60 分鍾多少錢?」變成「打電話前 10 分鍾每分鍾 10 分錢,之後每分鍾 8 分錢,如此打 60 分鍾電話費多錢?」,GLM-Zero-Preview 依然能夠準确回答,而且還貼心地将分錢轉換成元,有點眼色。
面對更復雜的數學題,GLM-Zero-Preview 同樣遊刃有餘。
先來一道高考數學真題熱熱身:
在等差數列 {an}{an} 中,a1= − 9a1= − 9,a5= − 1a5= − 1。記 Tn=a1+a2+ … +anTn=a1+a2+ … +an,則數列 {Tn}{Tn}( )。
A. 有最大項,有最小項
B. 有最大項,無最小項
C. 無最大項,有最小項
D. 無最大項,無最小項
GLM-Zero-Preview 選 C 絕不是「物以 C 為貴」,而是給出思考過程,循循誘導,甚至比一些 AI 學習機還要中用得多。
官方表示,在 2025 年考研數學一中,GLM-Zero 得分為 126,達到優秀研究生水平。
為了避免答案不出錯,GLM-Zero-Preview 還會自動啓用驗證流程。
「機械廠加工車間有 85 名工人,平均每人每天加工大齒輪 16 個或小齒輪 10 個,已知 2 個大齒輪與 3 個小齒輪配成一套,問需分别安排多少名工人加工大、小齒輪,才能使每天加工的大小齒輪剛好配套?」
GLM-Zero 迅速給出了答案:「25 名工人加工大齒輪,60 名工人加工小齒輪」,做題水平一流。
哪怕再上一道 AMC 難題,它也能輕松拿捏。
「一個集合由 6 個( 不是不同的 )正整數組成:1 、 7 、 5 、 2 、 5 和 X 。6 個數字的平均值( 算術平均值 )等于集合中的一個值。X 的所有可能值之和是多少?」
這個問題涉及五大點,十幾種情況,GLM-Zero-Preview 綜合考慮了各種可能性,咔咔一頓輸出,給我一種它真的有在模仿人類思考的感覺。
作為智譜首個基于擴展強化學習技術訓練的推理模型,GLM-Zero-Preview 在 AIME 2024、MATH500 和 LiveCodeBench 評測中,效果與 OpenAI o1-preview 相當。
此外,GLM-Zero-Preview 還能夠熟練使用多種編程語言,幫助開發者快速編寫代碼;在代碼調試方面,也能夠快速識别錯誤,給出詳細的修復建議。
例如,只需要輸入指令「幫我用 html 寫一個有趣的第一人稱射擊遊戲」,GLM-Zero-Preview 便能迅速獨立完成以下遊戲。
智譜很快将會推出正式版 GLM-Zero,将深度思考的能力從數理邏輯擴展到更多更通用的技術,繼續向 AGI 邁進。
當然,目前的 GLM-Zero-Preview 與 OpenAI 的 o3 模型還有不少的差距,但千裏之行,始于足下,智譜説了,未來将持續優化迭代強化學習技術。
實際上,智譜等廠商全力押注推理模型,背後反映的是 GPT 時代正在過渡到推理 o 時代。
與以往基于 GPT 的模型不同,推理模型不是為了預測人類的想法而訓練,而是通過訓練「思維」構建自己的思維框架,通過嚴謹的推理過程得出結論。
推理時代的到來,标志着 AI 或許開始從「模仿」走向「思考」。
智譜推出的 GLM-Zero-Preview 同樣是這一趨勢的體現。
當你觀察它解答問題時,你會發現它不是直接給出答案,而是展示出一個完整的推理過程 —— 提出假設、分析條件、推導結論,每一步深度思考都清晰可見。
未來,随着更多類似 o1 和 GLM-Zero-Preview 的模型湧現, AI 正在朝着與人類同等的認知水平邁出一大步,換言之,我們或許也正在見證一個重要的歷史轉捩點——
智譜的願景是「讓機器像人一樣思考」,當機器開始真正「思考」的時候,人類對智能的理解也将達到一個新的高度。