今天小編分享的互聯網經驗:智譜發的“幹活Agent”,不用邀請碼,歡迎閱讀。
文|周鑫雨
編輯|蘇建勳
交出後 DeepSeek R1 時代的答卷,對如今的六小虎而言,顯得尤為重要。
DeepSeek R1 和 Manus,已經分别在推理模型和 AI Agent 領網域炸了場。對于後來者而言,跟随是最為保守的路徑。比如,百度發布了推理模型文心 X1,騰訊上線了混元深度思考模型 T1。
在 3 月 31 日的 OpenDay 上,在國内資本市場拿錢到手軟的智譜,開年交出的答卷則是 R1 和 Manus 的 "plus 版本 " ——具有深度思考能力的 Agent 產品,"AutoGLM 沉思(以下簡稱‘沉思’)",已經免費上線。
AutoGLM 沉思。
智譜旗下的初代 AutoGLM,曾在 2024 年 11 月,實現了第一個由 AI 發出的紅包:AI 發了人類歷史上第一個紅包。" 沉思 " 的班味兒則更重些。就像一位人類實習生,它能夠基于開放的自然語言問題,理解、分析、搜索信源。
并且比 " 聯網搜索 " 更進一步," 沉思 " 能查看如知網、小紅書、公眾号、京東、巨潮資訊等不對外開放 API 的信源,同時具有多模态理解能力,能夠理解網頁上的圖文信息。
張鵬展示的一個案例是:用 " 沉思 " 運營小紅書賬号,兩周漲粉 5000,還接到了商單。
小紅書起号的關鍵,一是更新頻率高,二是話題吸引人。只要輸入想讨論的熱門話題,比如 " 手衝咖啡全套設備種草攻略 "," 沉思 " 就能從小紅書、知乎等平台,根據上百個信源自動做好了總結。
智譜用 " 沉思 " 運營的小紅書。
DeepSeek App 一舉創下 3000 萬日活的神話後,AI 廠商對產品範式的認知,逐漸有了變化:應用的最終形态,就是模型;所謂的應用,也成了模型能力的秀場。
可以明顯感受到," 沉思 " 的互動界面設計,相較于 Manus,更突顯了模型本身的思考能力。
在思考過程中," 沉思 " 展現的是 " 思考 ",從理解問題、拆解問題出發,通過信息檢索,再列出解決方案的框架。而 Manus 着重展現的是 " 行動 ",可視面板顯示的是 AI 調用工具的過程。
" 沉思 " 和 Manus 的界面對比。上為 " 沉思 ",下為 Manus。
比起具有 " 成為全球首款通用智能體 " 野心的 Manus," 沉思 " 對于當下智譜的意義,比起可用和落地,在于通過秀出思維鏈,展現其模型實力。
智譜 AutoGLM 負責人劉潇也直言,雖然 " 沉思 " 能夠執行研報整理等簡單任務,但當前提供給大眾的,只是一個預覽版本,還有很多的不足。
一個直觀的對比是,Manus 通過調用 Claude 的 Computer Use 能力,能夠實現跨 PC、App 等多端的操作,并且交付出 PPT、網頁等擁有具體形态的結果。
比如,輸入 Prompt" 請制作一個 jellycat 主題的吃豆人網頁遊戲,素材顏色飽和度不要太高 ",Manus 能直接交付一個像模像樣的遊戲網頁(雖然執行時間長達 45min,且遊戲存在 bug)。
Manus 交付的吃豆人網頁遊戲。
但當前的 " 沉思 " 預覽版能交付的,仍然是類似于 Deep Research(OpenAI 推出的研究智能體)的研究整理,無法開箱即用。
輸入上述的 Prompt," 沉思 " 只能輸出實現遊戲的代碼,用戶還需要額外復制和運行,對非技術背景的用戶并不友好。
" 沉思 " 交付的是遊戲代碼。
一名智譜員工告訴《智能湧現》," 沉思 " 仍是一個試驗性產品," ‘沉思’還不能跨端操作,如果要實現這點,就必須集成 GLM-PC(智譜推出的電腦操作模型)等類似 Computer Use 的功能。"
在 Agent 上下了一番功夫,智譜想要展示的到底是怎樣的技術實力?
OpenDay 上,張鵬解析了實現 " 沉思 " 所需的模型組合:基座模型 GLM-4-Air-0414,推理模型 GLM-Z1-Air,以及沉思模型 GLM- Z1 ——這三款新模型,分别對應 Agent 所需的語言理解、問題分析,以及反思驗證能力。
" 沉思 " 背後的新模型。
值得一提的是,智譜提出了 " 沉思大模型 " 的概念,這也代表了智譜對 R1 下一階段的探索。在張鵬看來,單純依賴内部知識推理,讓傳統 AI 具有相當大的局限性。
比帶有局限性的推理更進一步," 沉思 " 要求 AI 能夠實時聯網搜索、動态工具調用、深度分析和自我驗證,進而保證交付成功的可靠性和實用性。
" 價格屠夫 "DeepSeek 的掀桌,同樣在逼迫後來者或是開源,或是提供更高性價比的模型。
智譜新發布的三款模型中,推理模型 GLM-Z1-Air 的推理速度相比 R1 提升了 8 倍,但成本僅有 1/30,還能在消費級顯卡上運行。與此同時,這三款新模型也将在 4 月 14 日悉數開源。
當然,身處 " 後 DeepSeek" 時代,思考是否堅持預訓練、如何做商業化,是如今六小虎不得不回答的問題。
以下是智譜 CEO 張鵬在發布會上,關于 Agent 和模型技術,以及商業化的一些思考,略經《智能湧現》編輯:
預訓練仍然很重要。預訓練雖然現在關注度不那麼高,但是 RL(強化學習)等各種方法,本質上還是依賴預訓練所帶來的基座模型天花板。作為基座模型廠商,預訓練是我們一定會堅持的事情。
未來的新應用形态,尤其是智能體的應用形态,還是會回歸到模型上。未來很多的應用會以模型為核心,包上一個很淺的或者很薄的產品化,應用性的殼就會變成一個產品。模型能力一旦提升產品能力就得到提升,這是很典型的新應用範式的變化。
中間的所有產品化、工程化的方法,它是權宜之計,是折中式的解決方案。當造出一個像人一樣聰明的腦子之後,工程上的事情就比較少,只需要給它裝上手和眼睛就像人一樣可以完成很多工作,這是 AGI 的終極目标。
不只是大模型推理滿足 Scaling Law,我們發現,Agent 也存在類似的 Scaling Law。通過擴展訓練時的 inference compute(推理計算),我們觀察到 Agent 展現出了更強的性能。
企業或者用戶不管是調 API,還是買模型,怎麼使用好這個模型是大家面臨最大的問題。在這樣一個前提下,開源不開源,免費不免費,本身已經不是特别關鍵的問題,落地需要雙方的磨合。
過去歷史的經驗,包括像 MySQL 也好,還有 RedHat,其實已經證明了開源并不等于完全免費,還包括後期技術人員的投入、維護的成本,包括探索怎麼把 DeepSeek 做本地化等等,你要找專業的團隊。因此服務是開源的商業模式。
通用 Agent 不能有短板。為什麼 AI 的思考能力、文字能力遠超你,但還是不如你?因為它的能力參差不齊。明顯短板的存在,就會導致應用的成功率急劇下降。
為什麼現在的 Agent 會被第三方平台攔截?本質上還是不夠聰明。如果真的通過圖靈測試,我相信現在的封禁和攔截策略也很難做的到。所以規避攔截本質上是工程技術問題。
我們在具身智能上會有相應的布局,但可能還需要一點時間。
我不認為我們是 To B 的公司,我讨厭貼标籤。我們只做自己認為有意義的事情,這些事情會在不同的場景或者不同的客戶那裡,產生不同的應用方式和不同的價值。
歡迎交流!