今天小編分享的科學經驗:一手實測!文心X1/4.5 Turbo推理和多模态雙雙變強,還把模型成本降了6成?!,歡迎閱讀。
" 周周有發布,天天有更新。"
這是百度創始人李彥宏最新對大模型競速的感慨,但……卷王實際就是百度自己,因為就這一個多月以來,百度已經連發 4 款模型了。
就在剛剛,在 Create 2025 百度 AI 開發者大會上,李彥宏又一口氣官宣了兩款新模型:分别是主打深度思考和多模态的 X1 Turbo/4.5 Turbo。
而且發布即上線,普通用戶現在都能免費體驗。
據介紹,它們是百度在 3 月發布的旗艦模型 X1、4.5 的更新版,推理和多模态能力雙雙更躍 Level。
比如在挑戰 " 史上最難高考數學題之一 " 時,新模型是為數不多能給出正确答案的選手(正确答案為 145):
一個冷知識,2003 年數學全國卷被譽為 " 史上最難高考卷 ",而這道題還是裡面的壓軸大題,難度可想而知。
甚至,至今還能看到一眾自稱 03 級的網友集體 " 訴苦 ":
再比如面對一段讓人眼花缭亂的視頻,新模型竟成功猜對了小球的位置(原視頻如下):
正确答案是3 号杯子,話說大家最終猜出來了嗎? ( doge)
根據官方測評結果,深度思考模型文心 X1 Turbo(深藍),整體效果領先 DeepSeek R1、V3 最新版。
文心 4.5 Turbo(紅色),多模态能力優于 GPT 4o,文本能力與 DeepSeek V3 最新版持平,優于 GPT 4.5。
目前,兩款新模型均在文心一言官網開放,開發者在百度智能雲千帆大模型平台,也可直接調用 API。
另外,最關鍵的還是成本的下降!
文心 4.5 Turbo 輸入 0.8 元 / 百萬 tokens,輸出 3.2 元 / 百萬 tokens;文心 X1 Turbo 輸入 1 元 / 百萬 tokens,輸出 4 元 / 百萬 tokens。
以上價格,前者僅為 DeepSeek V3 的 40%,後者僅為 DeepSeek R1 的 1/4;同時相比一個月前的 X1/4.5,價格均下降一半及以上。
大模型能力在進化,成本在下降,應用創新的大爆發将勢不可擋。
只不過,咱還是先從一些具體能力上,看看百度最新最強大模型文心 X1 Turbo/4.5 Turbo,究竟是不是像跑分展現的那麼強?
老規矩,上一手實測~~
實測之後,還是太全面了!
首先來看主打深度思考的文心 X1 Turbo 模型。
據介紹,它基于文心 4.5 Turbo,在性能提升的同時,具備更先進的思維鏈,尤其擅長推理和工具調用。
文心大模型 X1 Turbo
一上來,我們先拿一道經典邏輯陷阱題熱熱身:
一根 5.5 米的竹竿可以通過高 4 米寬 3 米的門嗎?
對于這樣一個看似簡單的問題,目前市面上絕大多數的模型反應 be like:
而文心 X1 Turbo 經過一番嚴謹論證,第一次就得出了正确答案(通過調整竹竿的傾斜角度,可以通過):
看來這種問題已經難不倒它了,接下來難度更新。
直接一步到位,扔給它一道某地高中物理模考卷壓軸題,還是只上傳圖片的那種:
可以看到,對于這種涉及專業領網域的高難度推理題,X1 Turbo 依舊思路清晰。
先是自主調用 " 圖片理解 " 工具識别出題目與火箭發射有關,然後上手一步步解題,最終給出了正确答案。
值得注意的是,盡管考查的是 X1 Turbo 的邏輯推理能力,但我們已經提前發現它的一大特色——
與其他推理模型相比,文心 X1 Turbo能夠靈活調用各種工具。
官網顯示,文心 X1 Turbo 默認開啟代碼解釋器、文檔閱讀、圖片理解、圖片生成等諸多工具,一旦意識到答案涉及代碼、表格、圖片等多模态内容,就會自動調用這些工具。
比如在日常生活中,我們随手将一張美食照分享給文心 X1 Turbo,讓它幫忙反向解析詳細制作過程。
而且為了便于收藏,我們還要求它最終直接生成一份PDF 檔案:
看來挑戰還是太簡單了,好好好,接下來我們幹脆玩把大的。
讓文心 X1 Turbo 幫我們規劃一個五一去北京遊玩的行程,而且提了一大堆要求,不能太 " 特種兵 ",住宿、交通、門票等等都要考慮到,結果用表格呈現……主打一個全面考察工具調用。
話不多說,來感受一下最終效果:
不僅貼心标注了 " 五一行程—— 8 點自然醒版 "(doge),而且表格中每一天的安排都非常清晰,甚至特意标出了需要提前預約的景點和預約渠道。
再仔細一看,同一天安排的景點的位置都比較靠近,屬于合理範疇。
此外,我們還發現文心 X1 Turbo 支持繼續對話生成,能在前面的行程規劃上,接着為每個景點生成配圖。
最後順便一提,我們在測試文心 X1 Turbo 的推理和工具調用能力的過程中,還發現它在創意寫作方面有點意思。
恰逢五一假期臨近,我們讓它根據一張 " 西湖人山人海圖 ",仿照《嶽陽樓記》的文風寫一篇遊記。
對比一下《嶽陽樓記》原文,是不是有内味兒了 ~
慶歷四年春,滕子京谪守巴陵郡。越明年,政通人和,百廢具興,乃重修嶽陽樓,增其舊制,刻唐賢今人詩賦于其上,屬予作文以記之……
其次來看主打多模态的文心 4.5 Turbo 模型。
據介紹,它源自文心 4.5,是效果更好、成本更低的多模态大模型。
文心大模型 4.5 Turbo
實測下來發現,相比單項推理能力突出的文心 X1 Turbo,它更像是一個主打綜合實力的 " 六邊形戰士 "。
切換模型後,底部輸入框的文檔、圖片、視頻、音頻等多模态功能全部 " 點亮 ":
文本能力就不用多說了,我們直接上傳一張經典梗圖,考查其視覺理解能力,結果也是秒秒鍾 get~
再來個實用的,讓 4.5 Turbo 設計一些包含故宮博物院元素的冰箱貼文創。
相同提示詞下,通過對比文心 4.5 和 4.5 Turbo,可以看到後者的生成效果确實更好、更精致了。
最後,文心 4.5 Turbo 也能理解音視頻素材。
一方面可以直接和它語音對話,親測用四川方言也能實現無障礙交流:
另一方面還能綜合分析視頻中的場景、聲音、人物等等,目前單個視頻最大支持 20MB。
小結一下,百度此次推出的文心大模型 X1/4.5 Turbo,實測下來在推理能力和多模态能力上确實有一定程度更新。
那麼接下來的問題是:背後依靠了哪些核心技術?
挖一挖背後的技術在思考路徑中融合工具調用
首先,作為能夠自主運用工具的深度思考模型,文心 X1 Turbo 背後的關鍵技術包括:
其一,突破了僅基于思維鏈優化的範式,在思考路徑中結合工具調用,構建了融合思考和行動的復合思維鏈,模型解決問題的能力得到顯著提升。
其二,結合多元統一的獎勵機制,實現了長距離思維和行動鏈的端到端優化,顯著提升了跨領網域解決問題的能力。
一般而言,傳統的單一獎勵機制往往只能從一個角度評估模型的性能,這可能導致模型 " 顧此失彼 ",比如過于關注語法,可能就會忽略語義的連貫性。
而多元統一獎勵機制是從多個維度全面評估模型的性能,這種綜合性的反饋機制能夠幫助模型在多個方面同時優化,從而提升整體實力。
采用不同模态混合訓練
其次,為了提升文心 4.5 和 4.5 Turbo 的多模态能力,一大關鍵就是采用了不同模态(文本、影像和視頻)的混合訓練。
針對不同模态數據在結構、規模、知識密度上的差異,主要應用了如下技術:
多模态異構專家建模
自适應分辨率視覺編碼
時空重排列的三維旋轉位置編碼
自适應模态感知損失計算
最終,模型的學習效率提高近 2 倍,多模态理解效果提升超過 30%。
而且為了進一步提升模型的綜合實力,他們在後訓練階段也進行了優化。
研制了自反饋增強的技術框架,基于大模型自身的生成和評估反饋能力,實現了 " 訓練 - 生成 - 反饋 - 增強 " 的模型迭代閉環。
這不僅解決了大模型對齊過程中數據生產難度大、成本高、速度慢等問題,而且顯著降低了模型幻覺,提升了模型理解和處理復雜任務的效果。
此外在訓練階段,他們還研制了融合偏好學習的強化學習技術,通過多元統一獎勵機制,提升了對結果質量判别的準确率,通過離線偏好學習和在線強化學習統一優化,進一步提升了數據利用效率和訓練穩定性,并增強了模型對高質量結果的感知。
正是因為受益于偏好信号與獎勵信号的融合運用,模型的理解、生成、邏輯推理和記憶等能力才得以全面提升。
數據的合理挖掘及運用
當然,能夠訓練出高質量模型,還離不開對數據的合理挖掘及運用。
在這方面,他們打造了" 數據挖掘與合成 - 數據分析與評估 - 模型能力反饋 " 的數據建設閉環。
主要體現在兩點:
一是針對專業深度知識及領網域過程知識的數據稀缺問題,研制了原理驅動、過程評估與結果校驗的數據合成技術、知識點驅動的大規模稀缺數據挖掘技術,提升數據的知識密度和覆蓋面。
二是針對不同模态數據割裂、跨模态語義關聯難度大等問題,提出了融合語義對齊的多模态平行數據構建、融合視覺知識的描述生成等技術,大幅提升不同模态數據的對齊精度和深度語義關聯,增強多模态理解能力。
最終實現了——既能源源不斷地生產知識密度高、數據多樣、領網域覆蓋廣的大規模數據,還能将數據建設流程輕松遷移到全新的數據類型。
訓練推理中采用聯合優化
除了上面這些,技術團隊還進行了模型的算力優化。
訓練方面,多模态統一的掩碼注意力加速,利用飛槳已有的塊狀掩碼注意力加速技術,顯著降低不同模态混合計算注意力時的掩碼構建和計算開銷,大幅提升訓練性能。
推理方面,多模态流式分塊預填充機制,減少首 token 耗時,同時減少推理計算的顯存峰值,提升推理批次大小,提升吞吐性能。
而且值得一提的是,開發者還能利用百度飛槳框架 3.0," 像寫單機代碼一樣寫分布式代碼 ",借助其動靜統一自動并行技術,開發者無需感知復雜的通信和調度邏輯,即可實現大模型的開發。
目前,文心飛槳的開發者數量已經超過了 2185 萬,服務超過 67 萬家企業,創建的模型達到 110 萬。
未來,随着百度進一步走向開源,開發者也能通過該框架實現更多開源模型的高性能推理了。
把生產力成本打下來了
技術上所具備的核心優勢,最終也讓百度把模型價格狠狠打下來了。
還在一個月前,百度發布的文心大模型 X1 和 4.5,就因為低于 ChatGPT 和 DeepSeek 的價格出圈。
而現在發布的文心 X1 Turbo/4.5 Turbo,模型性能更新的同時,價格卻進一步降低了。
文心大模型 X1 Turbo API,輸入價格 1 元 / 百萬 tokens,輸出價格 4 元 / 百萬 tokens,僅為 DeepSeek R1 調用價格的 1/4,而且相比文心大模型 X1,價格直接腰斬。
文心大模型 4.5 Turbo API,輸入價格 0.8 元 / 百萬 tokens,輸出價格 3.2 元 / 百萬 tokens,僅為 DeepSeek V3 調用價格的 40%,而且相比文心大模型 4.5,價格更是下降了 80%。
而且不止卷價格,一旦梳理百度目前采取的一系列動作,我們就能看到一個核心關鍵詞——生產力。
一方面,百度作為國内最早入局大模型的頭部玩家之一,始終堅決投入下一代基礎模型。
模型更新的方向,目前主要包括推理、多模态、工具調用等等,這些功能均圍繞 " 生產力 " 展開,主要是為了滿足普通人的日常工作生活需要。
帶來的結果是,越更新基礎模型,我們普通用戶越能免費薅到更強大的生產力工具。
另一方面,他們還為開發者提供了全方位支持。以文心大模型為例,目前已經形成了從模型到工具平台的完整體系,包括文心 4.5、X1 等旗艦模型及其 Turbo 更新版、文圖生成模型、場景模型和輕量模型、文心一言和智能體,以及賦能開發者的數據生產、後訓練、推理部署和場景化工具等。
再加上模型價格一降再降,開發者搞應用的門檻也更低了,這将推動 AI 應用進一步爆發,進而有望提升整個社會的生產力。
這或許也是百度這屆 AI 開發者大會,主題 " 模型的世界,應用的天下 " 的關鍵原因,模型已經遍地都是、觸手可及,那麼應用的爆發也就成為了必然趨勢。百度創始人李彥宏還預判:" 模型會有很多,但未來真正統治這個世界的是應用,應用才是王者。"
在發布最後,李彥宏的發言也引發了現場開發者的熱烈掌聲反饋,他說——
所有這些發布,都是為了讓開發者們可以不用擔心模型能力、不用擔心模型成本、更不用擔心開發工具和平台,可以踏踏實實地做應用,做出最好的應用!
文心一言地址:
https://yiyan.baidu.com/
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
點亮星标
科技前沿進展每日見