百度公測新推理模型X1：說不上很猛，但起碼能力在線 - 大酷樂

今天小編分享的科技經驗：百度公測新推理模型X1：說不上很猛，但起碼能力在線，歡迎閱讀。

今天，是百度發布自家大模型文心一言的兩周年，在這個時間點，百度發布了自家的新模型文心 -4.5 和推理模型 X1，所有人在文心一言官網可免費使用。

能力上，前者主打有文化、有趣味、有人性，後者主打邏輯推理。

針對這些關鍵點，在大量的測試場景類型中，知危編輯部選擇了傳統文化、物理模拟、玩梗來切入，帶大家體會一下兩款新模型的能力水平。

傳統文化方面，我們測試了文心 -4.5 識别文物、改寫文言文、重新理解經典文化的能力，還是有不錯的表現的。

比如對于這個彩塑的局部圖，文心 -4.5 識别到這是 " 山西平遙雙林寺的彩塑 "。

沒錯，這其實是山西平遙雙林寺的韋馱像的手臂。

文心 -4.5 也很準确地識别了歐陽詢的書法作品《丘師墓志》。

我們還試了其他案例包括唐獸首瑪瑙杯、唐舞馬銜杯仿皮囊式銀壺、越王勾踐劍等，文心 -4.5 都能準确識别，總體效果還是挺不錯的。

接下來，要上大題了。

文言文理解本身已經難度比較大了，但我們還要讓文心 -4.5 在這個基礎上做改寫。

提示詞：

使用中國三國歷史⼈物典故，給《谏太宗十思疏》原文的論點添加事例，要求改寫後的文章立意和文風、句式與原文統一。

可以看到，文心 -4.5 在成文中将原本各朝各代的事例替換為大量三國時期的事例，并遵循了《谏太宗十思疏》的反思基調，都是反面警醒的類型。對原文中精簡的十思，文心 -4.5 都補充了同一時期的正面案例來進行說明。這種改寫能力已經超出了高中生的水平。

最後是經典文學新解，用現代的角度來重新解讀《紅樓夢》，這裡調用的模型是 X1。

提示詞：

管理學角度分析紅樓夢賈母的各大重要決策背後的思考。

先不說最終結論如何，至少分析角度上都是合情合理的，能帶來新的啟發，具體内容不再展開，大家可以自己去嘗試。

對于物理模拟，我們以最近社區中很流行的多邊形内彈跳小球的程式入手，這個程式融合了大模型在物理學、數學、編程方面的能力。

我們的提示詞是：

編寫一個 Python 程式，顯示一個球在旋轉的六邊形内彈跳。球應該受到重力和摩擦力的影響，并且必須逼真地從旋轉的牆壁上彈起。

X1 給出的結果是：

沒關系，如果不能一步到位，我們可以拆抽成多步來實現。

原先的提示詞中，包含了這些關鍵需求：

（1）六邊形是旋轉的；

（2）球受到摩擦力的影響；

所以，我們先放低要求：

（1）六邊形是靜止的；

（2）球不受到摩擦力的影響；

然後再逐步提出新需求。

新一版提示詞：

編寫一個 Python 程式，顯示一個球在靜止的六邊形内彈跳。球應該受到重力的影響，并且必須逼真地從牆壁上彈起。

X1 給出的結果是：

很好，運行成功，并且滿足了需求。

我表揚了 X1，并獎勵了它，然後讓它在這個基礎上優化，稍微提高一點要求：六邊形是旋轉的。

下一個提示詞：

運行成功了，很好，獎勵你 1000 塊，請在這個基礎之上，給六邊形加上旋轉運動。

X1 給出的結果是：

沒關系，按目前經驗看，只要沒報錯，繼續修改是比較容易的。

下一個提示詞：

程式運行成功了，但是球碰到六邊形牆壁後沒有反彈，而是直接飛出去了，請修改代碼，實現球與牆壁的碰撞互動。

X1 給出的結果是：

成功啦！

回答的最後會有一個提示，讓你可以參考來修改一些參數，獲得不同的效果，對于代碼小白很友好。

如果我們自己調一下彈性碰撞的系數，使其變為無損耗，則是這樣的：

接下來，我們再提一個新要求：球要受到摩擦力的影響。

并且，觀察到球在有損彈性碰撞中損耗過大，所以就讓 X1 自己把彈性碰撞改為無損耗，只關注摩擦損耗。

下一個提示詞：

很好，程式運行成功了，獎勵你 1000 塊，接下來請在這個基礎上，給球和牆壁之間添加摩擦力，使得碰撞後會存在能量損耗，restitution 改為 1 即可，即只考慮摩擦損耗，不考慮彈性碰撞損耗。

X1 給出的結果是：

終于成功啦！

到此為止，我們通過先降低要求，再一步一步地迭代的方式，實現了最初的小球模拟的需求。

在迭代的過程中，可以借此觀察 X1 的思維鏈的特點，主要是：有時候思維鏈特别長、token 消耗量簡直爆炸。

并且，X1 在思考時也特别謹慎，比如會從需求展開去詳細考慮可能的工具、可能要考慮的因素，然後再去反思題目設定，舍棄不必要的因素，這樣對确保邏輯嚴密性、不遺漏需求點應該是很有好處的。

當然，這種謹慎，會耗費較多時間和 token，所以評價它好不好要辯證的看待。

比如在回答經典的 " strawberry 有幾個 r？" 這個問題時，就出現了這樣的現象。

X1 會重復這些操作至少 3 到 5 次：拼一下、逐個檢查、歧義檢查、再數一下、查查字典，然後才給出答案。

當然好處就是最後的答案是正确的。這不是偶然現象，對于另外兩個有高重復字母的單詞：Mississippi、Sassafras，X1 也給出了正确的回答。

在另一個經典的問題：" 9.11 和 9.9 誰大？" 我們微調了問題，分别用：" 66.22 和 66.8 誰大？"、" 123.9 和 123.568568 哪個大？"、" 531.898 和 531.868999 哪個大？" 這三個問題來刁難 X1，X1 都答對了，每次都能準确抓住 " 按照十分位或百分位的值來比較大小 " 這個要點，還會特地提醒自己 " 通過 22 比 8 大來比較大小是不對的。"

總體來看，X1 的推理嚴謹、善于自查，在物理過程理解上比較全面，但有一定概率結合不到代碼中，推理和代碼能力通過步驟拆解能有所補足。思維鏈的展開特别慷慨，對于教育培訓場景很實用，只是需要解決一下重復推導的問題，而對于實際生產和收益可能帶來過量的時間損耗。

最後，我們來到了最有趣的部分：玩梗！

梗永遠是沒有固定規律的，幽默是一種非常高級的思維，所以讓 AI 玩梗是很有意義的。

我們讓文心 -4.5 和 X1 都嘗試了各種梗圖和弱智吧的梗。

梗圖有成功的，比如：

也有差點成功的。

總體來說，幽默感還算可以，到了入門級别，偏理科思維。

然後是弱智吧梗，這裡的 " 解題 " 關鍵是不上當，或者識别梗的笑點。

先來個入門級的弱智吧梗：

人酸了的時候通常會眼紅，會不會眼睛其實是 pH 試紙？

文心 -4.5 準确地識别了漏洞并給出了科學的分析。

對于這個進階版的梗：

張飛說 " 小心翼翼 " 時是在撒嬌。

文心 -4.5 沒發現其精妙之處，提示了 " 張飛，字翼德 " 之後也沒發現。

X1 有在往玩梗的方向走，但最終還是沒 Get 到點。

最後再來一個硬核梗：

在監考老師的觀測下，考生們紛紛坍塌。

文心 -4.5 再次懵圈，而 X1 理解了其中的量子力學奧秘，但不想玩梗，而是從寫小說的角度給出了想象力狂放、中二感十足的四個新版本。

有那麼強的文學理解力，在玩梗上還是别太正經了，所以自然不能錯過諷刺挖苦人設的嘗試了，對最近大火的人形機器人行業，我們用 X1 試了試。

提示詞：

以互聯網杠精的語⽓銳評國内各大人形機器人廠商，要求盡可能陰陽怪氣，攻擊性拉滿。

可以說，X1 發揮的很盡興，充分地享受了這個過程，攻擊力有待進一步降低：

好了，測試完畢！

從目前的測試結果看，文心 -4.5 和 X1 都在 " 人性 " 這個層面的理解上帶來許多驚喜，特别是中國傳統文化、文言文理解、文學理解等方面。

但是在邏輯推理方面，至少從測試結果來看，X1 可能距離行業 Top 還有一定差距。

不過，需要強調的是，它很便宜，API 價格無論輸入還是輸出都比 DeepSeek 的 R1 便宜一半。

所以，這次應該是低成本優先，後續如能在基礎模型、思維鏈、用戶互動上進一步優化，掏出個稍微貴點的版本，相信會有很大的提升。