大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 互聯網

實測文心X1:便宜大碗還能自主調用工具,引發矽谷反思?

2025-03-18 简体 HK SG TW

今天小編分享的互聯網經驗:實測文心X1:便宜大碗還能自主調用工具,引發矽谷反思?,歡迎閱讀。

又一家中國模型引發了矽谷大模型界的反思!這次,是百度文心 X1。

知名風投機構 Benchmark 合夥人 Bill Gurley,在社交媒體上的評論引發熱議:" 美國人工智能公司應将 100% 的時間用于開發和創新,而不是在華盛頓特區遊說尋求保護以躲避競争。"

另一邊,海外用戶紛紛在平台上求助如何獲取百度賬号,科技 KOL Alvin Foo 在使用數小時後評價:" 百度對文心進行了重大更新 ... 其性能令人印象深刻。在多個基準測試中均優于 ChatGPT 4.5,而價格僅為其 1%。" 科技作家 Robert Scoble 則直言:" 我們有一場 AI 價格戰!"

這一切,都源于 3 月 16 日百度同時發布了文心大模型 4.5 和文心大模型 X1,目前,兩款旗艦產品已提前在文心一言官網免費向用戶開放。

作為百度新一代基座大模型,文心大模型 4.5 的多項基準測試成績優于 GPT4.5、DeepSeek-V3 等,并在平均分上以 79.6 分高于 GPT4.5 的 79.14。而文心 X1 作為百度首個深度思考模型,主打的就是極致性價比。以輸入 0.002 元 / 千 tokens、輸出 0.008 元 / 千 tokens 的價格,僅為 DeepSeek-R1 價格的一半,但性能卻不相上下。

更關鍵的是,文心 X1 實現了從邏輯推理、熱點分析到多工具協同調用的突破,成為首個自主運用工具的深度思考模型。它能調用搜索、AI 繪圖、代碼執行等 11 種工具,模型可自主規劃行動路徑,生成可直接落地的方案。

假設一下,當深度思考模型可以調用足夠多的工具來實現用戶發出的指令,比如直接調用編程工具進行編程,或者調用 word 文檔存檔知識庫,形成一系列工作流,這不就是原生 Agent 麼?

我們帶着這個疑問,全面測試了 X1 和文心 4.5。

能調用工具的 X1,堪比 Agent?

在評測過程中,我們先是測試了 X1 的基礎編程能力,讓它幫忙設計了一個貪吃蛇小遊戲。通過思考,X1 很快給出了設計思路和代碼。

代碼結構清晰,注釋詳盡,不僅包含了遊戲的核心邏輯,還考慮到碰撞檢測、分數計算和遊戲狀态管理等細節。不過 X1 體現了完全的 " 程式員直男風格 ",完全不懂美化一下小蛇。(笑死)

随後,我們又測試了 X1 的邏輯推理能力,向它提出了一個經典的推理謎題,這道題在我們題庫裡,幾乎問過每一個推理模型,包括 DeepSeek R1、Kimi1.5、OpenAI o1,但無一例外都選擇了「abba」的答案,但真實的情況是前三題正确,最後一題的殺人動機為 c,一個被迫害妄想症患者的自我保護。

看來大模型懂邏輯,但還是很難懂人性。

在這次 X1 的功能中,與以往推理模型最大的不同在于他可以思考後調用工具,完成用戶更落地的需求,結合多模态的能力,我們嘗試了幾個很實用的場景。

比如我們找到了一張房間的圖片,需要将圖片中的房間進行軟裝改造,并生成效果圖。這中間涉及到圖片理解——裝修意見—— AI 生圖,調用了三個工具完成最終的效果圖展示。

效果圖出來的時候,驚呆了!家裝設計師岌岌可危啊!不僅能自定義風格,對哪些家具擺放不滿意還可以進一步提需求調整,X1 也能處理更加復雜的需求,比如房間擺設風水等等,無限出圖,刷到滿意為止!

經過實測,X1 即便在復雜任務下,反應速度也非常快,沒有卡頓,同時 X1 能主動識别任務需求,精準分析問題性質和復雜度,無需用戶明确指導便能理解真實意圖。

最突出的特點是其自主工具選擇能力,模型能基于任務特點智能選擇最優工具組合,而非簡單套用固定流程。在實際使用中,X1 能在單次互動中靈活調用搜索、繪圖、代碼執行等多種工具協同工作,打破了傳統模型的工具使用邊界。

總的來說,推理分析能達到 R1 的水平,同時不卡頓又能調用其他工具,真香了!

怎樣高性能,又能低成本?

那麼,X1 是如何做到在保證模型性能的前提下,還能把價格打下來?

這一突破與百度多年的技術積累息息相關。通過飛槳深度學習平台和文心大模型的聯合優化,文心 X1 實現了全鏈路極致調優,大幅降低了推理成本。

在模型壓縮層面,文心 X1 應用了尖端技術進行深度優化。通過分塊 Hadamard 量化技術,精确控制模型參數精度與規模的平衡;針對長序列場景,團隊特别優化了注意力機制的量化方案,在保持推理準确性的同時顯著減少了計算資源需求。這些壓縮技術使模型體積減少的同時,維持了高水平性能表現。

推理引擎是另一個關鍵突破點。百度團隊實現了低精度高性能算子優化,充分利用硬體特性;創新開發的動态自适應解碼技術,同時基于神經網絡編譯器的深度定制化優化,實現了推理加速。

最後是通過框架和芯片協同優化、分離式部署架構、高效資源調度實現了系統級優化。

當然,除了百度在 AI 時代的技術積累以外,也有工程化的技術創新。

據矽星人了解到,X1 采用了遞進式強化學習訓練方法,不同于傳統的強化學習通過 " 試錯 + 獎勵 " 機制訓練模型," 遞進式 " 則強調分階段、漸進式的訓練策略,來提升模型的訓練效率。

這種方法類似人類的學習路徑—— " 先學走路,再學跑步 ",目的是在創作、搜索、工具調用、推理等更復雜的任務場提升模型的綜合應用能力。實際測試中,當要求 X1 分析一張包含圖表的财報圖片,并生成投資建議時,模型能自主決策先使用影像理解工具,再調用搜索獲取相關行業數據,最後通過代碼解釋器生成數據可視化分析,整個過程如同專業分析師的工作流程。

其次,X1 突破性地将思維鏈 ( Chain of Thought ) 和行動鏈 ( Chain of Action ) 結合進行端到端訓練。

簡單地理解為,模型不是割裂地學習思考與行動,而是将兩者有機融合,形成完整的決策 - 執行閉環。通過這種方式,X1 能根據每次行動的結果反饋,動态調整思考和行動策略。例如,在復雜的市場分析任務中,X1 先通過思維鏈分析需要哪些數據,然後通過行動鏈調用搜索工具獲取最新市場數據,發現數據不足後,又主動調整策略使用更專業的數據分析工具,最終生成全面的分析報告,這種靈活性在傳統模型中難以實現。

第三,X1 創新性地解決了單一獎勵指标的局限性,構建了多元統一的獎勵系統。通過融合多種類型的獎勵機制,形成綜合獎勵信号,全方位指導模型優化方向。

這一系統的最大優勢在于避免模型 " 偏科 ",如過度追求準确性導致内容枯燥,或過度追求創意性而犧牲準确性。X1 的輸出更接近人類綜合判斷,能在不同場景下自适應調整表現風格。當然,這也帶來了挑戰:需要動态調整權重(如創作場景側重創意性,代碼生成場景側重邏輯性),依賴海量場景數據訓練。

模型發一贈一,文心 4.5 也來了

值得一提的是,除了文心 X1 的強大表現,百度也發布了此前預告過的基礎大模型:文心大模型 4.5。

在實測中,文心 4.5 展現出卓越的多模态理解能力和極低的幻覺率。例如,我們向模型發送了一段抖音視頻,關于電子產品介紹,文心 4.5 不僅能準确識别視頻中的專業術語和關鍵數據,還能對該產品進行購買推薦。當面對含有多種信息源(圖片、表格、文本)的混合輸入時,模型能正确識别并區分不同來源的信息,避免了常見的信息混淆和虛構,這得益于其強大的去幻覺能力。

通過 iRAG 技術提升百度系列模型的去幻覺能力和準确性,以及 FlashMask 動态注意力掩碼技術、多模态異構專家擴展技術、時空維度表征壓縮技術、基于知識點的大規模數據構建技術和基于自反饋的 Post-training 技術。這些技術不僅保證了模型的精準理解和穩定輸出,更為模型後續的行業應用提供了堅實基礎。

可以讓大模型從娛樂化的環境晉升到商業環境中,比如幫助家裝設計師進行風格設計、分析視頻腳本進行模仿、電商產品圖生成等等,都變成了通用大模型的能力。

通過這些深度技術創新,百度不僅打造出了高性能、低成本的文心 X1,更重要的是探索出了一條獨特的大模型發展路徑,在追求技術極致的同時兼顧實用性和經濟性。

這種平衡發展的理念,既滿足了企業對 AI 性能的高要求,又解決了應用成本問題,使 AI 真正能夠為各行各業創造實際的價值。

熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們