AI學會發紅包了！國產Agent一句話控制手機電腦，我看到了「摸魚自由」的未來

今天小編分享的科技經驗：AI學會發紅包了！國產Agent一句話控制手機電腦，我看到了「摸魚自由」的未來，歡迎閱讀。

2024 年，AI 圈最火的關鍵詞非 Agent 莫屬。

從 OpenAI 的簡單 GPTs 到 Anthropic 能夠自主行動的 computer use，再到最近 AI 初創公司 /dev/agents 憑借 Agent 作業系統估值 5 億美元，廠商們都在試圖尋找 AI 下一個明确的落地方向。

而在國内，上個月智譜 AI 也帶來了自己的答案—— AutoGLM。

如果掏出手機、打開應用、點擊搜索、輸入關鍵詞 ... 完成這些操作往往要經過四五步，而有了 AI，這些操作變成了真就一句話的事兒。

到了今天，智譜 AI 在北京也推出了一系列囊括多終端的 Agent 產品。

用戶只需輸入指令，GLM 即可理解指令，規劃任務，然後識别界面中的視窗、圖形、文字等，并且實現自動操作，如同進入 AI 接管設備的大航海時代。

在 Agent OpenDay 現場，智譜 AI CEO 張鵬現場利用 AutoGLM 面對面建群，并且給在場數百位與會者發送了微信紅包，以及線上的口令紅包。有沒有搶到紅包的朋友，不妨在評論區分享你的喜悅。

AutoGLM：移動端（暫時向 Android 開放），可自主執行超 50 步的長步驟操作，适用于比價、導航、刷超話等復雜操作

GLM-PC：PC 端（暫時向 Mac 系統開放），适用于解放打工人雙手的生產力工具，手機也能遠程操作電腦

AutoGLM-Web：網頁端，支持百度搜索、知乎、Github 等數十個網站的無人駕駛

最形象的注腳大概就是，從 Chat 走向 Act，AI 無處不在，但 Agent 同樣也無處不在。換言之，從替我們「思考」替我們「做事」，Agent 正在重新定義智能設備。

附上體驗跳轉鏈接：

AutoGLM：https://agent.aminer.cn/

GLM-PC：https://cogagent.aminer.cn/home

AutoGLM-Web：https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_openday

别人家的 AI 都在聊天，這些 AI 卻能幫我摸魚

AI 幫我摸魚？AutoGLM 讓我躺着刷超話、買咖啡

在之前的文章中，我們已經體驗過智譜 AutoGLM 是如何接管我們的手機。

全自動發微信、逛淘寶……以往我們要自己動手的事情，現在都被 AutoGLM 包圓。并且，這位 AI 打工人今天還更新了，本事妥妥地見長。

我們也提前體驗上了這些最新的 AI 工具。

我們的消費觀是可以買貴的，但不能買貴了。

比如說，前不久，《人類簡史》的作者尤瓦爾 · 赫拉利出版了最新著作《智人之上》，那我為什麼不讓 AI 幫我在拼多多和淘寶上逛逛，看看哪家劃算。

我只需要動動嘴，AI 就幫我跑斷腿，不過如果仔細看，把書名弄混還是有點小瑕疵的。

要是在嘈雜環境不方便說話，别擔心。

AutoGLM 還配了個「靜音模式」，打字也能發号施令，而且在執行任務之前，AutoGLM 也給用戶留了 3 秒的「後悔時間」，讓你随時能喊停，并調整執行任務。

追星族有個好消息，全新更新的 AutoGLM 連超話籤到打卡都能搞懂。

以給李行亮的超話打卡為例，只需對着 AutoGLM 懸浮窗輸入我的指令，AI 就會全程代勞，而我只需要遇到敏感信息時「露個面」就行，一鍵告别「錯過打卡」的焦慮。

對了，這些日常任務還能設定快捷指令，一鍵搞定。

可不要小看這個功能，作為天選打工人，下午定時點的咖啡堪稱「續命神器」，不需要每天反復設定，只需要保留下單咖啡的指令，妥妥省去不少功夫。

選擇随便模式，所有步驟則是讓 AI 為你決策，開啟咖啡盲盒，但當涉及到發送，下單付款等重要操作時，AutoGLM 會主動将選擇權重新交回給你。

跨應用協作是本次更新的重大亮點。

蘋果牌 AI 已經向我們展示了系統級 AI 打通應用牆的重要性，而現在借助 AutoGLM，我們同樣能夠實現類似的效果，比如我讓 AI 去小紅書搜個蒜蓉菜心的教程，并成功轉發朋友圈。

新增的 AI 導航功能也很實用。想去廣州塔？輕輕和 AutoGLM 說一聲，AI 就把你安排得明明白白。

比較遺憾的是，AutoGLM 僅支持 Android 系統。

但智譜即日起也将放開 AutoGLM 的用戶内測名額，并進一步優化功能以及使用上的體驗，預計盡快上線成為真正面向廣大 C 端用戶開放的產品。

智譜清言的插件 AutoGLM-Web 即日也同樣起新上線 AutoGLM 功能。

據悉，AutoGLM-Web 支持百度搜索、微博、知乎、Github 等數十個網站的無人駕駛。

在官方演示的 demo 中，AutoGLM-Web 自動完成了「在百度搜索芒果 TV，打開再見愛人，播放最新一集，發彈幕」。全程沒有用戶的幹預。

▲ image description. 圖片來自：xxx

從手機到電腦，讓 AI 替我當打工人

與 AutoGLM 相比，GLM-PC 則在電腦端提供了更多面向職場場景的功能體驗。

GLM-PC 當前專為搭載 M 系列芯片的 Mac 電腦打造，其中以 M1 和 M3 系列設備最為推薦。在對話框中輸入你想進行的操作，GLM-PC 就會評估工具并決定操作計劃。

當然，遇到敏感操作時，GLM-PC 就會自動暫停，等待用戶操作或者進行确認。

想了解 B 站熱門内容？GLM-PC 三下五除二就幫你找到「入站必刷」第一條，幫你省去不少漫無目的的劃水時間。

要約張三開會？發條微信的事兒，交給 AI。甚至在有頁面的遮擋的情況下，也能精準定位到微信的搜索框裡。

它還能幫你預定騰訊會議，順帶把會議邀請發給參會人。建議完事後，把這套「操作秘籍」收藏起來，通過流程化來提升工作效率。

作為編輯，我個人最愛的功能是讓它幫我梳理海外的 AI 新聞。發出指令後，AI 就會打開浏覽器，輸入網址，然後一份清晰的新聞總結就能到手。

對了，如果你是剛從 Win 轉到 Mac 系統的新人，你多少會因為系統的變化弄到手忙腳亂。

現在 GLM-PC 就是你的「救命稻草」，無論是調整顯示模式，還是其他設定，将你的訴求通通交給它。把麻煩的事情甩給 AI，把快樂留給自己，這才是人生赢家的正确打開方式。

GLM-PC 還有一個堪稱「王炸」的功能。

先在 GLM-PC 設定中打開「挂起模式」，然後在手機上通過驗證碼登陸「https://cogagent.aminer.cn/m」，你的手機甚至可以遠程遙控電腦。

具體來說，你可以遠程給 GLM-PC 發指令消息，讓 GLM-PC 進行電腦操作。GLM-PC 每執行一步就會返回操作時的螢幕截圖，而如果有敏感操作，則會等用戶進行确認後再操作。

在現場的演示中，張鵬也通過手機上 GLM-PC 網頁對 cogagent 發布指令，成功通過電腦端的微信發送檔案。

實際上，當 AI 開始真正「幹活」而不只是「對話」，也标志着 AI 應用進入了「接地氣」的務實階段。可以說，當 AI 真正開始解決日常瑣事，它就從玩具變成了一個實實在在的生產力工具。

這或許才是 AI 技術最該有的樣子。

Phone Use 時刻

在這兩個月手機圈密集發布了多款新品，其中有一個趨勢值得留意，雖然 AI 手機還沒得到消費者的廣泛認同，系統級 AI 成了各家廠商 OS 主打的亮點，其實這也是一種 Agent 落地普及的前兆。

無論是 vivo 的藍心小 V 和發布會展示可以 AI 訂餐的「Phone GPT」，華為鴻蒙的小藝和意圖框架，還是榮耀的 YOYO 智能體，都和智譜今天發布的 Agent 的本質一樣：

讓 AI 模仿人類的 Plan-Do-Check-Act（計劃 - 執行 - 檢查 - 行動）循環，從而像人類那樣去操作設備。

就像智譜 AI CEO 張鵬今天的發布會提到，目前的 Agent 能力更像是在用戶和應用之間，增加一個智能的調度層，鏈接所有應用甚至是所有設備。

這可以看做是大模型通用作業系統 LLM-OS 的一種雛形，智譜也将這套 Agent 互動稱為 GLM-OS 的構建，将對人機互動形式產生極大的影響。

OpenAI 創始成員、AI 技術大牛 Andrej Karpathy 也曾多次談到大語言模型作業系統（LLM OS），他認為大模型某種程度來說就是一種新的計算機和作業系統，它可以連接各種軟體和硬體，以及所有模态信息組成的外設，并通過函數調用執行各種任務。

傳統作業系統中，你需要圍繞 CPU 構建一堆外設，比如滑鼠和鍵盤、磁盤存儲、以及緩存空間等。

而在 LLM OS 中，大模型本身就是中央處理器。I/O 外設也不再是滑鼠和鍵盤，因為 LLM 可以兼容更多模态的數據輸入和輸出。同時大模型調用的外部工具也将從傳統軟體更新為智能體工具。

其中跨應用的操作是非常關鍵的一環，這意味着 Agent 能實現更加復雜的自主連貫操作，也可能走向真正的商業化落地。

我們在年初曾判斷大模型将成為智能手機新的作業系統，自然用戶界面（Natural user interface， NUI ）将逐步替代現有的圖形用戶界面（GUI）。

至于各家互聯網公司提供的服務能否打通，可能是未來實現這種互動最大的障礙。但無論是智能手機還是應用，都終将是人類發展史上一個階段性產物。

目前的 Agent 互動還在早期階段，在行業内 Scaling Law 遭遇瓶頸的背景下， Agent 要怎麼能成為真正的生產力工具，承擔更高比例的工作決策？

智譜 AutoGLM 技術負責人劉潇在接受 APPSO 采訪時表示，預訓練肯定還要繼續，但對于算法和數據的訓練會有一套新的邏輯。

智譜 AI CEO 張鵬也告訴 APPSO，團隊對于 Scaling Laws 的空間相對樂觀，希望在新的範式和生态下去探索更多可能性。

今年很多廠商不約而同用自動駕駛來形容 AI 終端的智能程度， OpenAI 也将 AI 劃分為 L1-L5 五個等級。

與 OpenAI 有所不同，智譜将大模型發展的五個階段定義為：L1 語言能力、L2 邏輯能力（多模态能力）、L3 使用工具的能力、 L4 自我學習能力、 L5 探究科學規律。

張鵬認為，大模型已經初步具備了人類與現實物理世界互動的部分能力。「Agent 将極大地提升 L3 使用工具能力，同時開啟對 L4 自我學習能力的探索」。

從 Phone Use、Computer Use、Car Use 到 All Device Use，大模型的思考能力和 Agent 互動逐步影響我們使用智能設備的方式。

讓 AI 發微信和點贊現在看起來實用意義有限，但如同 AlphaGo 無論下棋多強都不會對社會帶來多少影響，Google DeepMind 的 AlphaFold 可以預測幾乎所有蛋白質結構，幫助大量疾病的治療和研究。

背後的範式改變才是撬動人類生活方式更新的杠杆，Agent 讓大模型從 Chat 走向 Act，下所謂 AI 終端的形态才逐漸浮現，而非只是一個命名的改變。

作者：李超凡、莫崇宇