今天小編分享的科技經驗:智譜放大招:大模型從「Chat」走向「Act」,歡迎閱讀。
頭圖來源:智譜
每次不知道吃什麼的時候,都會羨慕古代的富貴人家,不用自己想,比你自己還懂你的管家就安排的明明白白——今天随着 AI 的發展,這樣的場景正在成為現實。
業内普遍認為,2025 年将是 Agent 爆發之年。Gartner 近期将 agentic AI 列為 2025 年十大技術趨勢之一,并預測 2028 年至少有 15% 的日常工作決策将由 agentic AI 自主完成。
與 GenAI(生成式人工智能) 不同,Agent 是目标驅動型的,能夠完全執行工作流程,适應、學習、迭代、與其他系統和人類協作,并端到端地完成任務。在智譜 CEO 張鵬看來,Agent 可以看作是大模型通用作業系統 LLM-OS 的雛形。
此前在 10 月,智譜就推出了自主智能體—— AutoGLM。AutoGLM 不僅能夠模拟用戶的螢幕操作,如點擊手機應用,還能在浏覽網頁時有效輔助用戶,涵蓋了日常生活中廣泛需用的多個領網域,包括社交、網購、地圖導航和火車票訂購等。
今天,在其最新的「Agent OpenDay」活動中,智譜展示了 AutoGLM 多項進展,展示了大模型技術如何将「對話」從簡單的互動提升為具有高度自主性的作業系統:可自主完成超過 50 步的復雜操作,并能跨應用程式協作執行任務;支持數十個網站的「無人駕駛」;此外,基于視覺多模态模型的 GLM-PC 也進入内測階段,致力于探索通用智能體技術,實現像人類一樣操控計算機。
在 Agent OpenDay 現場,智譜 CEO 張鵬 通過在現場下達語音指令,讓 AutoGLM 面對面建群,給現場數百位嘉賓發送了總共 2 萬元的微信紅包,并且演示了手機遠程指揮電腦自動發送檔案。
AutoGLM 新更新:挑戰更復雜
在活動上,智譜重點展示了其最新更新的 AutoGLM,它能夠自主執行復雜且多步驟的任務,跨應用處理需求,甚至在全程無人幹預的情況下自動操作多平台。
AutoGLM 能夠高效完成超長任務鏈,比如呀在購買火鍋食材的場景中,AutoGLM 無需人工幹預即可執行 54 步任務,且速度超越人工操作;支持跨應用任務執行,用戶僅需發出簡短指令,系統便能自動調度并完成多個應用間的任務;簡化了操作流程,用戶可通過簡單語音命令啟動復雜操作,如一句「點咖啡」便能自動完成從選擇到購買咖啡的全部流程。
為了提升個性化體驗,AutoGLM 還引入了「随便模式」,通過分析用戶偏好和歷史行為,主動為用戶做出決策,進一步優化使用體驗。
同時,智譜宣布 AutoGLM 啟動大規模内測,并将盡快上線成為面向 C 端用戶的產品;「10 個億級 APP 免費 Auto 更新」的計劃也已啟動;支持核心場景和核心應用的 AutoGLM 标品 API,則會在兩周内上線到智譜 maas 開放平台試用。
此外,智譜清言插件也上線了 AutoGLM 功能,支持搜索、微博、知乎、Github 等數十個網站的「無人駕駛」。
智譜清言插件上線 AutoGLM 功能|圖片來源:智譜
GLM-PC :面向「無人駕駛」電腦的一次技術探索
除了手機和浏覽器,智譜還帶來了基于 PC 的自主 Agent —— GLM-PC。這是智譜在「無人駕駛」PC 領網域的技術探索,基于其多模态模型 CogAgent 開發。
GLM-PC 目前已經開始第一階段的内測,提供多項核心功能,包括幫助用戶預定和參與會議,并自動發送會議總結;支持文檔處理,如下載、發送、理解和總結文檔;在指定平台(如微信公眾号、知乎、小紅書等)進行關鍵詞搜索并完成總結;具備遠程和定時操作功能,支持遠程發指令并執行電腦任務,或在設定時間自動完成任務;此外,GLM-PC 還引入「隐形螢幕」模式,能夠在用戶工作時自主完成任務,釋放螢幕使用空間。
GLM-PC 的設計理念是模拟人類的電腦使用方式——眼睛觀察螢幕、腦海中進行規劃,再通過手部操作執行指令。
憑借這一設計,GLM-PC 能夠完成復雜的 PC 任務,甚至可以自主學習和執行所有為人類設計的應用,表現出跨平台的強大能力。這是一種系統級、跨平台的能力,不依賴于 HTML、API,具備更高的能力上限。
不過,智能體在執行復雜業務流程時,通常需要調動大量數據和應用程式,但由于許多網站和 APP 的 API 缺乏統一标準,這就會讓企業在集成智能體時面臨一些挑戰。
對于這一點,智譜 AutoGLM 技術負責人劉潇指出,AutoGLM 通過圖形化用戶互動界面來解決這一問題,而非依賴傳統的 API 調用。
與傳統 API 集成容易因應用更新而導致失效不同,AutoGLM 模拟人類的操作方式,只要應用界面保持用戶可理解并且易于使用,智能體就能夠在該界面上順利執行任務,從而規避了 API 标準化不足帶來的問題。
由于 PC 任務的復雜性,目前 GLM-PC 還需要用戶輸入精準指令,距離全面替代人工辦公還有一定差距。但随着技術的不斷進步,GLM-PC 的能力将進一步增強,未來有望為用戶提供更為高效、直觀的 PC 操作體驗。
大模型應用新階段:從 Chat 走向 Act
關于最近熱議的 Scaling Law 是否放緩,張鵬認為,Scaling Law 放緩只是一個表面現象,背後可能存在更深層次的原因。
他指出,盡管在語言處理領網域可能接近人類認知的極限,但仍有可能通過大量數據和大規模處理突破這一瓶頸。在多模态應用和智能體等領網域,Scaling 仍然有很大的探索空間。
在張鵬看來,計算量和有效信息可能是關鍵因素,預訓練階段的放緩并不意味着整體進展停滞。事實上,後訓練階段仍然存在 Scaling 效果,盡管這種效果不再像預訓練時那樣簡單地依賴數據量和參數量的增加,而是更加復雜和精細。
這種突破正是當前 AI 技術發展的核心之一——如何将大模型從單純的「理解」層面提升到「行動」的能力。大模型的價值不應只是作為 chatbot 存在,它的真正價值在于其強大的「理解」與「預測」能力。
這種能力使得大模型能夠深度解析和理解人類的復雜語義、情感以及抽象概念,進而進行精準的推理和預測。如何将這些強大的能力從單純的文本互動中解放出來,應用到更廣泛、更實際的場景中,就要從現在的「Chat 」走向「 Act」 。
Act,即行動,代表着大模型技術從理解和預測到實際行動的跨越。這不僅意味着模型能夠根據輸入的信息作出反應,更意味着它能在更復雜的動态環境中進行決策,解決問題,甚至創造新的價值。
在張鵬看來,「現階段,AutoGLM 相當于在人與應用之間添加一個執行的調度層,很大程度上改變人機的互動形式。更重要的是,我們看到了 LLM-OS 的可能,基于大模型智能能力(從 L1 到 L4 乃至更高),未來有機會實現原生的人機互動。将人機互動範式帶向新的階段。」
AutoGLM 和 GLM-PC 是智譜對 AI 智能作業系統的一次重要嘗試。它們的出現源于智譜在大語言模型、多模态模型、邏輯推理和工具使用等方面的技術積累。
從 2023 年 4 月的 AgentBench 開始,到 8 月的 CogAgent 模型,智譜針對 AutoGLM,和 GLM-PC 的模型 CogAgent 的研發工作進行了一年半的時間。
與 OpenAI 有所不同,智譜定義了大模型發展的五個階段:L1 語言能力、L2 邏輯能力(多模态能力)、L3 使用工具的能力、 L4 自我學習能力、 L5 探究科學規律。
智譜定義的大模型發展五個階段|圖片來源:智譜
目前的 Agent 能力能夠幫助用戶鏈接眾多應用,未來甚至有望鏈接所有設備。
理論上,随着 Agent 能力持續提升,它們将能夠駕馭越來越多的應用程式,适配多樣化的作業系統,并執行日益復雜的自主操作。這被認為是大模型通用作業系統 LLM-OS 的初步形态。
為此,智譜已在芯片、作業系統 OS 、模型側和應用 app 側,進行了一段時間的探索。
在終端層面,智譜已經和手機廠商、PC 廠商實現深度合作,在 AIPC、智能助手 Agent 等領網域有諸多成果。智譜也與高通、英特爾等芯片廠商展開密切協作,聯合調教端側大模型,以發揮最新芯片的性能。
通過端側芯片性能優化和端雲一體架構,Agent 不僅在作業系統 OS 和應用 app 上實現用戶體驗變革,還能将其推廣到各類智能設備上,實現基于大模型的互聯互通。
這種擴展,具體到當下的各種設備,從手機到電腦,再到汽車、眼鏡、家居和各種 edge side 設備,理論上是沒有邊界限制的。
智譜 COO 張帆談到,智能設備在大模型的加持下,将會煥發出新的機會。
随着端側性能及算力持續提升、為 AI 原生設備适配的模型和端雲同源的協同架構出現,Agent 不僅在作業系統 OS 和應用上實現用戶體驗變革,還能将其推廣到各類智能設備上,從手機到電腦,再到汽車、眼鏡、家居和各種 edge side 設備,各種 AI 原生設備正在争相湧現。
随着 Agent 技術的發展,AI 與人類的互動模式将不再局限于簡單的對話,未來的機器将不僅能聽懂人類的指令,還能夠主動思考、決策并執行任務。
2025 年或許會成為 Agent 技術爆發的關鍵年份,Agent 将進一步改變我們與機器的關系,帶來更加智能化、個性化和高效的生活與工作方式。