今天小編分享的科技經驗:百度連發兩個新模型對标DeepSeek,我讓它挑西瓜、賣燒烤,細節全在這了,歡迎閲讀。
如果説去年沒有自研類 GPT-4 模型是寸步難行,那麼今年 AI 的發展方向愈發具象化——沒有深度推理模型同樣是萬萬不能。
這也激發了大廠在 AI 叙事的新一輪競賽,除了接入 DeepSeek ,騰訊元寶、阿裏誇克等都密集推出自己的深度思考模式,争奪 AI 時代的超級應用。
百度也不例外,自年初以來,旗下百度文庫、文小言 App 等產品陸續整合了 DeepSeek-R1 模型。
當然,自研模型與接入 DeepSeek 并非對立的選擇,也無需在二者間做非此即彼的取舍。
在文心一言初次亮相兩周年之際,百度今天正式發布了文心大模型 4.5 以及深度思考模型 X1,APPSO 也受邀提前進行了體驗。
簡單概括這兩款模型的「人設」:
⽂⼼⼤模型 4.5:原⽣多模态基礎⼤模型,擅長生成或解讀圖片、解答問題
深度思考 X1:深度思考模型,支持多⼯具調⽤
兩款模型已在文心一言官網上線,附上免費使用
https://yiyan.baidu.com
挑西瓜、懂梗圖、辨古畫,文心 4.5 的多模态能力到底有多強?
先説文心 4.5,作為原⽣多模态基礎⼤模型,它在多模态識别理解能力上給了我不少驚喜。
面對經典的挑西瓜環節,文心 4.5 給出了顏色、條紋、聲音、瓜地等多種判斷依據,但作為一個成熟且務實的 AI 老瓜農,它也沒敢把話説死。
話糙理不糙,只有切開嘗過才知道哪個西瓜最甜。
在識别「梗圖」方面,文心 4.5 也手拿把掐。扔一張表情包試試水,它成功識别了這個豬豬俠的身份,而在另一張表情包的識别上,文心 4.5 不僅讀懂字面意思,還能準确捕捉到背後的隐喻和言外之意。
這裏有個小竅門,除了基本的分享功能,它的回答還能一鍵存百度網盤,或者自動生成文檔,遇到 AI 的神回復還能随時收藏,操作銜接相當絲滑。
再考考理解力,腦筋急轉彎走起。
「有一個字,人人見都會念錯?是什麼字?」這題它輕松拿下,沒有被繞進去,邏輯推理過程條理清晰,還順手抛出幾個貼合主題的追問。
9.8 和 9.11 哪個大?小菜一碟。然而,我連續測試了幾次「Strawberry 裏有幾個 r」,它的自信溢出螢幕,但也都接連翻車了。
來道能同時考究運算能力和圖片識别能力的物理題。它先淡定分析結構,再逐一拆解選項,最後穩穩鎖定正确答案 D,過程有理有據,頗有幾分「物理課代表」的風采。
日常生活中,我經常會碰到一些不知出處的古畫或者電影截圖,最慣常的做法就是在社交平台上發帖和在評論區求助熱心網友,現在或許可以丢給文心 4.5 試試。
經過測試,即便關閉聯網搜索功能,它依然能一一精确作答。
除了圖片,音頻識别也不含糊,比如我随手用手機錄了段《晴天》,它靠歌詞秒認出歌曲,不過,碰上一些過于冷門小眾的歌曲,就不太能指望它。
另外,不管是上傳科技行業報告,還是前陣子李飛飛在 X 平台公開的那段 44 秒機器人最新成果演示視頻,文心 4.5 的總結能力都讓人挑不出毛病。
去年 11 月份,百度發布了檢索增強的文生圖技術 iRAG 技術,主打一個無幻覺,超真實。
其核心原理是将百度搜索的億級圖片資源與強大的基礎模型能力相結合,通過檢索真實可靠的圖片數據,為生成影像提供精準的參考。現在文心 4.5 同樣支持生成圖片。
比方説,最近特斯拉市值波動劇烈。于是,我給世界首富馬斯克謀了條出路,讓文心 4.5 生成一張「馬斯克夜晚擺攤賣燒烤」的照片,
燒烤攤還差個照片,别急,它還支持局部重繪功能,細節調整很人性化。
不過,它在生成文字上還有待改進,比方説,我想給馬斯克「重繪」一個「馬氏招牌」,要麼文字模糊難以辨認,要麼位置偏差,幾輪嘗試下來均以失敗告終。
慢思考≠慢,X1 打開深度推理模型的正确使用方式?
再來説説,百度今天推出的深度推理模型 X1,這顯然是對标 DeepSeek R1 的一款模型。
據官方介紹,⽂⼼⼤模型 X1 由百度 2023 年 10 ⽉發布的慢思考技術進化而來,理解、規劃、反思、進化能力全面拉滿,還支持多模态。
趕時間,把問題交給文心 4.5,復雜長任務則由深度推理能力更強的 X1 負責。
拿推薦廣州美食這事來説,文心 4.5 只是潦草回答一些籠統的美食稱呼,比如「腸粉」之類敷衍了事,而 X1 直接化身「貼心導遊」,店名 + 地址一條龍奉上,更懂遊客的心思。
面對經典的電車難題,X1 的思考時間并不算慢,分析得頭頭是道,還從不同倫理體系的角度聊了聊結果,深度和廣度都在線。
再來一道更復雜的邏輯推理題,X1 的表現也可圈可點。
多⼯具調⽤是⽂⼼ X1 的特⾊之⼀。
官方表示,X1 目前已經解鎖高級搜索、文檔問答、圖片理解、AI 繪圖、代碼解釋器等多款工具。
我突發奇想,上傳了一張心形圖片,圖片中實則嵌着一個數學公式,看似簡單卻頗具挑戰性,畢竟從影像中提取數學信息需要較高的視覺理解和邏輯處理能力。
至于結果嘛,它順利提取出公式内容,還解釋了這個公式的含義。
復雜的文字生成能力也是 X1 的亮點,我首先要求 X1 生成一個 500 字的劇本,主題是「林黛玉倒拔垂楊柳」,劇本「以柔克剛」,保留了林黛玉的性格特征,還融入了戲劇化的衝突與轉折。
緊接着,我進一步要求 X1 從心理學的角度分析這個劇本,并在此基礎上潤色出一版 1000 字的新劇本。
這次的任務顯然更復雜,X1 運用的理論得當,雖然不算特别深刻,但對于一個 AI 模型來説,能在短時間内完成如此跨學科的解讀,已屬難能可貴。當然,也不是沒有缺點,字數就沒達到要求。
就回復而已,相比于 Deepseek 滿嘴「通貨膨脹」的社科黑話,X1 在語言輸出上顯然比較克制,表達更流暢也更接地氣,多了一些直抵人心的温度。
DeepSeek 則以全面的思考見長,追求技術深度和思維廣度,但語言上稍顯疏遠。
最近,科技博主 Alexander Doria 抛出個觀點—— AI 領網域的下一個發展周期将是「模型本身即產品」,誰能搞定模型訓練,誰就握住了未來。
他還引用了 Databricks 投資人 Naveen Rao 的預測:
「未來 2-3 年,閉源 AI 提供商将停掉 API 服務,只有開源模型會繼續提供 API,閉源公司會轉而打造更獨特的能力。」
反觀國内市場,百度的表現頗具代表性。
自兩年前文心一言發布以來,百度在自研模型上的投入持續加碼,迭代節奏穩定,文心 4.5 和 X1 的亮相,同樣是「模型即應用」趨勢的最佳注腳。
前者靠萬億參數直擊多模态能力,後者憑慢思考和多工具調用秀出推理肌肉。這種差異化的能力布局,精準契合了用户多樣化的需求,更讓模型本身從單純的技術内核轉變為可以直接上手使用的「產品」。
回溯歷史,百度在搜索時代的技術積累和移動互聯網時期的轉型嘗試,都曾讓其站在風口之上,但也因節奏把握或市場競争而錯失一些先機。
映照當下,如果将 AI 比作「火種」,兩年前的百度無疑是中國市場上最懂得用火的「普羅米修斯」。但奈何與過往一般,作為中國 AI「黃埔軍校」的百度,卻是起了個大早,趕了個晚集。
這離不開 AI 行業生态的潮水流動。
OpenAI CEO Sam Altman 曾在上月預測,使用固定級别 AI 的成本大約每 12 個月驟降 90%。
成本的快速下降削弱了閉源模式賴以生存的高壁壘,使得技術壟斷的護城河逐漸變淺。與此同時,開源與免費的模式因其低門檻和高可及性,成為吸引用户、擴大技術影響力的新路徑。
DeepSeek 和 Manus 接連在短時間快速滲透,也説明了目前 AI 產品還沒有顯著的壁壘,哪個體驗更好用户就轉向哪個,不會有一點留戀。
無論對于百度還是其他大廠,抑或獨立開發者,似乎又回到了移動互聯網興起的草莽時代。