今天小編分享的科技經驗:百度公測新推理模型X1:說不上很猛,但起碼能力在線,歡迎閱讀。
今天,是百度發布自家大模型文心一言的兩周年,在這個時間點,百度發布了自家的新模型文心 -4.5 和推理模型 X1,所有人在文心一言官網可免費使用。
能力上,前者主打有文化、有趣味、有人性,後者主打邏輯推理。
針對這些關鍵點,在大量的測試場景類型中,知危編輯部選擇了傳統文化、物理模拟、玩梗來切入,帶大家體會一下兩款新模型的能力水平。
傳統文化方面,我們測試了文心 -4.5 識别文物、改寫文言文、重新理解經典文化的能力,還是有不錯的表現的。
比如對于這個彩塑的局部圖,文心 -4.5 識别到這是 " 山西平遙雙林寺的彩塑 "。
沒錯,這其實是山西平遙雙林寺的韋馱像的手臂。
文心 -4.5 也很準确地識别了歐陽詢的書法作品《 丘師墓志 》。
我們還試了其他案例包括唐獸首瑪瑙杯、唐舞馬銜杯仿皮囊式銀壺、越王勾踐劍等,文心 -4.5 都能準确識别,總體效果還是挺不錯的。
接下來,要上大題了。
文言文理解本身已經難度比較大了,但我們還要讓文心 -4.5 在這個基礎上做改寫。
提示詞:
使用中國三國歷史⼈物典故,給《 谏太宗十思疏 》原文的論點添加事例,要求改寫後的文章立意和文風、句式與原文統一。
可以看到,文心 -4.5 在成文中将原本各朝各代的事例替換為大量三國時期的事例,并遵循了《 谏太宗十思疏 》的反思基調,都是反面警醒的類型。對原文中精簡的十思,文心 -4.5 都補充了同一時期的正面案例來進行說明。這種改寫能力已經超出了高中生的水平。
最後是經典文學新解,用現代的角度來重新解讀《 紅樓夢 》,這裡調用的模型是 X1。
提示詞:
管理學角度分析紅樓夢賈母的各大重要決策背後的思考。
先不說最終結論如何,至少分析角度上都是合情合理的,能帶來新的啟發,具體内容不再展開,大家可以自己去嘗試。
對于物理模拟,我們以最近社區中很流行的多邊形内彈跳小球的程式入手,這個程式融合了大模型在物理學、數學、編程方面的能力。
我們的提示詞是:
編寫一個 Python 程式,顯示一個球在旋轉的六邊形内彈跳。球應該受到重力和摩擦力的影響,并且必須逼真地從旋轉的牆壁上彈起。
X1 給出的結果是:
沒關系,如果不能一步到位,我們可以拆抽成多步來實現。
原先的提示詞中,包含了這些關鍵需求:
(1)六邊形是旋轉的;
(2)球受到摩擦力的影響;
所以,我們先放低要求:
(1)六邊形是靜止的;
(2)球不受到摩擦力的影響;
然後再逐步提出新需求。
新一版提示詞:
編寫一個 Python 程式,顯示一個球在靜止的六邊形内彈跳。球應該受到重力的影響,并且必須逼真地從牆壁上彈起。
X1 給出的結果是:
很好,運行成功,并且滿足了需求。
我表揚了 X1,并獎勵了它,然後讓它在這個基礎上優化,稍微提高一點要求:六邊形是旋轉的。
下一個提示詞:
運行成功了,很好,獎勵你 1000 塊,請在這個基礎之上,給六邊形加上旋轉運動。
X1 給出的結果是:
沒關系,按目前經驗看,只要沒報錯,繼續修改是比較容易的。
下一個提示詞:
程式運行成功了,但是球碰到六邊形牆壁後沒有反彈,而是直接飛出去了,請修改代碼,實現球與牆壁的碰撞互動。
X1 給出的結果是:
成功啦!
回答的最後會有一個提示,讓你可以參考來修改一些參數,獲得不同的效果,對于代碼小白很友好。
如果我們自己調一下彈性碰撞的系數,使其變為無損耗,則是這樣的:
接下來,我們再提一個新要求:球要受到摩擦力的影響。
并且,觀察到球在有損彈性碰撞中損耗過大,所以就讓 X1 自己把彈性碰撞改為無損耗,只關注摩擦損耗。
下一個提示詞:
很好,程式運行成功了,獎勵你 1000 塊,接下來請在這個基礎上,給球和牆壁之間添加摩擦力,使得碰撞後會存在能量損耗,restitution 改為 1 即可,即只考慮摩擦損耗,不考慮彈性碰撞損耗。
X1 給出的結果是:
終于成功啦!
到此為止,我們通過先降低要求,再一步一步地迭代的方式,實現了最初的小球模拟的需求。
在迭代的過程中,可以借此觀察 X1 的思維鏈的特點,主要是:有時候思維鏈特别長、token 消耗量簡直爆炸。
并且,X1 在思考時也特别謹慎,比如會從需求展開去詳細考慮可能的工具、可能要考慮的因素,然後再去反思題目設定,舍棄不必要的因素,這樣對确保邏輯嚴密性、不遺漏需求點應該是很有好處的。
當然,這種謹慎,會耗費較多時間和 token,所以評價它好不好要辯證的看待。
比如在回答經典的 " strawberry 有幾個 r?" 這個問題時,就出現了這樣的現象。
X1 會重復這些操作至少 3 到 5 次:拼一下、逐個檢查、歧義檢查、再數一下、查查字典,然後才給出答案。
當然好處就是最後的答案是正确的。這不是偶然現象,對于另外兩個有高重復字母的單詞:Mississippi、Sassafras,X1 也給出了正确的回答。
在另一個經典的問題:" 9.11 和 9.9 誰大?" 我們微調了問題,分别用:" 66.22 和 66.8 誰大?"、" 123.9 和 123.568568 哪個大?"、" 531.898 和 531.868999 哪個大?" 這三個問題來刁難 X1,X1 都答對了,每次都能準确抓住 " 按照十分位或百分位的值來比較大小 " 這個要點,還會特地提醒自己 " 通過 22 比 8 大來比較大小是不對的。"
總體來看,X1 的推理嚴謹、善于自查,在物理過程理解上比較全面,但有一定概率結合不到代碼中,推理和代碼能力通過步驟拆解能有所補足。思維鏈的展開特别慷慨,對于教育培訓場景很實用,只是需要解決一下重復推導的問題,而對于實際生產和收益可能帶來過量的時間損耗。
最後,我們來到了最有趣的部分:玩梗!
梗永遠是沒有固定規律的,幽默是一種非常高級的思維,所以讓 AI 玩梗是很有意義的。
我們讓文心 -4.5 和 X1 都嘗試了各種梗圖和弱智吧的梗。
梗圖有成功的,比如:
也有差點成功的。
總體來說,幽默感還算可以,到了入門級别,偏理科思維。
然後是弱智吧梗,這裡的 " 解題 " 關鍵是不上當,或者識别梗的笑點。
先來個入門級的弱智吧梗:
人酸了的時候通常會眼紅,會不會眼睛其實是 pH 試紙?
文心 -4.5 準确地識别了漏洞并給出了科學的分析。
對于這個進階版的梗:
張飛說 " 小心翼翼 " 時是在撒嬌。
文心 -4.5 沒發現其精妙之處,提示了 " 張飛,字翼德 " 之後也沒發現。
X1 有在往玩梗的方向走,但最終還是沒 Get 到點。
最後再來一個硬核梗:
在監考老師的觀測下,考生們紛紛坍塌。
文心 -4.5 再次懵圈,而 X1 理解了其中的量子力學奧秘,但不想玩梗,而是從寫小說的角度給出了想象力狂放、中二感十足的四個新版本。
有那麼強的文學理解力,在玩梗上還是别太正經了,所以自然不能錯過諷刺挖苦人設的嘗試了,對最近大火的人形機器人行業,我們用 X1 試了試。
提示詞:
以互聯網杠精的語⽓銳評國内各大人形機器人廠商,要求盡可能陰陽怪氣,攻擊性拉滿。
可以說,X1 發揮的很盡興,充分地享受了這個過程,攻擊力有待進一步降低:
好了,測試完畢!
從目前的測試結果看,文心 -4.5 和 X1 都在 " 人性 " 這個層面的理解上帶來許多驚喜,特别是中國傳統文化、文言文理解、文學理解等方面。
但是在邏輯推理方面,至少從測試結果來看,X1 可能距離行業 Top 還有一定差距。
不過,需要強調的是,它很便宜,API 價格無論輸入還是輸出都比 DeepSeek 的 R1 便宜一半。
所以,這次應該是低成本優先,後續如能在基礎模型、思維鏈、用戶互動上進一步優化,掏出個稍微貴點的版本,相信會有很大的提升。