今天小編分享的科技經驗:AI學會發紅包了!國產Agent一句話控制手機電腦,我看到了「摸魚自由」的未來,歡迎閱讀。
2024 年,AI 圈最火的關鍵詞非 Agent 莫屬。
從 OpenAI 的簡單 GPTs 到 Anthropic 能夠自主行動的 computer use,再到最近 AI 初創公司 /dev/agents 憑借 Agent 作業系統估值 5 億美元,廠商們都在試圖尋找 AI 下一個明确的落地方向。
而在國内,上個月智譜 AI 也帶來了自己的答案—— AutoGLM。
如果掏出手機、打開應用、點擊搜索、輸入關鍵詞 ... 完成這些操作往往要經過四五步,而有了 AI,這些操作變成了真就一句話的事兒。
到了今天,智譜 AI 在北京也推出了一系列囊括多終端的 Agent 產品。
用戶只需輸入指令,GLM 即可理解指令,規劃任務,然後識别界面中的視窗、圖形、文字等,并且實現自動操作,如同進入 AI 接管設備的大航海時代。
在 Agent OpenDay 現場,智譜 AI CEO 張鵬現場利用 AutoGLM 面對面建群,并且給在場數百位與會者發送了微信紅包,以及線上的口令紅包。有沒有搶到紅包的朋友,不妨在評論區分享你的喜悅。
AutoGLM:移動端(暫時向 Android 開放),可自主執行超 50 步的長步驟操作,适用于比價、導航、刷超話等復雜操作
GLM-PC:PC 端(暫時向 Mac 系統開放),适用于解放打工人雙手的生產力工具,手機也能遠程操作電腦
AutoGLM-Web:網頁端,支持百度搜索、知乎、Github 等數十個網站的無人駕駛
最形象的注腳大概就是,從 Chat 走向 Act,AI 無處不在,但 Agent 同樣也無處不在。換言之,從替我們「思考」替我們「做事」,Agent 正在重新定義智能設備。
附上體驗跳轉鏈接:
AutoGLM:https://agent.aminer.cn/
GLM-PC:https://cogagent.aminer.cn/home
AutoGLM-Web:https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads_news_openday
别人家的 AI 都在聊天,這些 AI 卻能幫我摸魚
AI 幫我摸魚?AutoGLM 讓我躺着刷超話、買咖啡
在之前的文章中,我們已經體驗過智譜 AutoGLM 是如何接管我們的手機。
全自動發微信、逛淘寶……以往我們要自己動手的事情,現在都被 AutoGLM 包圓。并且,這位 AI 打工人今天還更新了,本事妥妥地見長。
我們也提前體驗上了這些最新的 AI 工具。
我們的消費觀是可以買貴的,但不能買貴了。
比如說,前不久,《人類簡史》的作者尤瓦爾 · 赫拉利出版了最新著作《智人之上》,那我為什麼不讓 AI 幫我在拼多多和淘寶上逛逛,看看哪家劃算。
我只需要動動嘴,AI 就幫我跑斷腿,不過如果仔細看,把書名弄混還是有點小瑕疵的。
要是在嘈雜環境不方便說話,别擔心。
AutoGLM 還配了個「靜音模式」,打字也能發号施令,而且在執行任務之前,AutoGLM 也給用戶留了 3 秒的「後悔時間」,讓你随時能喊停,并調整執行任務。
追星族有個好消息,全新更新的 AutoGLM 連超話籤到打卡都能搞懂。
以給李行亮的超話打卡為例,只需對着 AutoGLM 懸浮窗輸入我的指令,AI 就會全程代勞,而我只需要遇到敏感信息時「露個面」就行,一鍵告别「錯過打卡」的焦慮。
對了,這些日常任務還能設定快捷指令,一鍵搞定。
可不要小看這個功能,作為天選打工人,下午定時點的咖啡堪稱「續命神器」,不需要每天反復設定,只需要保留下單咖啡的指令,妥妥省去不少功夫。
選擇随便模式,所有步驟則是讓 AI 為你決策,開啟咖啡盲盒,但當涉及到發送,下單付款等重要操作時,AutoGLM 會主動将選擇權重新交回給你。
跨應用協作是本次更新的重大亮點。
蘋果牌 AI 已經向我們展示了系統級 AI 打通應用牆的重要性,而現在借助 AutoGLM,我們同樣能夠實現類似的效果,比如我讓 AI 去小紅書搜個蒜蓉菜心的教程,并成功轉發朋友圈。
新增的 AI 導航功能也很實用。想去廣州塔?輕輕和 AutoGLM 說一聲,AI 就把你安排得明明白白。
比較遺憾的是,AutoGLM 僅支持 Android 系統。
但智譜即日起也将放開 AutoGLM 的用戶内測名額,并進一步優化功能以及使用上的體驗,預計盡快上線成為真正面向廣大 C 端用戶開放的產品。
智譜清言的插件 AutoGLM-Web 即日也同樣起新上線 AutoGLM 功能。
據悉,AutoGLM-Web 支持百度搜索、微博、知乎、Github 等數十個網站的無人駕駛。
在官方演示的 demo 中,AutoGLM-Web 自動完成了「在百度搜索芒果 TV,打開再見愛人,播放最新一集,發彈幕」。全程沒有用戶的幹預。
▲ image description. 圖片來自:xxx
從手機到電腦,讓 AI 替我當打工人
與 AutoGLM 相比,GLM-PC 則在電腦端提供了更多面向職場場景的功能體驗。
GLM-PC 當前專為搭載 M 系列芯片的 Mac 電腦打造,其中以 M1 和 M3 系列設備最為推薦。在對話框中輸入你想進行的操作,GLM-PC 就會評估工具并決定操作計劃。
當然,遇到敏感操作時,GLM-PC 就會自動暫停,等待用戶操作或者進行确認。
想了解 B 站熱門内容?GLM-PC 三下五除二就幫你找到「入站必刷」第一條,幫你省去不少漫無目的的劃水時間。
要約張三開會?發條微信的事兒,交給 AI。甚至在有頁面的遮擋的情況下,也能精準定位到微信的搜索框裡。
它還能幫你預定騰訊會議,順帶把會議邀請發給參會人。建議完事後,把這套「操作秘籍」收藏起來,通過流程化來提升工作效率。
作為編輯,我個人最愛的功能是讓它幫我梳理海外的 AI 新聞。發出指令後,AI 就會打開浏覽器,輸入網址,然後一份清晰的新聞總結就能到手。
對了,如果你是剛從 Win 轉到 Mac 系統的新人,你多少會因為系統的變化弄到手忙腳亂。
現在 GLM-PC 就是你的「救命稻草」,無論是調整顯示模式,還是其他設定,将你的訴求通通交給它。把麻煩的事情甩給 AI,把快樂留給自己,這才是人生赢家的正确打開方式。
GLM-PC 還有一個堪稱「王炸」的功能。
先在 GLM-PC 設定中打開「挂起模式」,然後在手機上通過驗證碼登陸「https://cogagent.aminer.cn/m」,你的手機甚至可以遠程遙控電腦。
具體來說,你可以遠程給 GLM-PC 發指令消息,讓 GLM-PC 進行電腦操作。GLM-PC 每執行一步就會返回操作時的螢幕截圖,而如果有敏感操作,則會等用戶進行确認後再操作。
在現場的演示中,張鵬也通過手機上 GLM-PC 網頁對 cogagent 發布指令,成功通過電腦端的微信發送檔案。
實際上,當 AI 開始真正「幹活」而不只是「對話」,也标志着 AI 應用進入了「接地氣」的務實階段。可以說,當 AI 真正開始解決日常瑣事,它就從玩具變成了一個實實在在的生產力工具。
這或許才是 AI 技術最該有的樣子。
Phone Use 時刻
在這兩個月手機圈密集發布了多款新品,其中有一個趨勢值得留意,雖然 AI 手機還沒得到消費者的廣泛認同,系統級 AI 成了各家廠商 OS 主打的亮點,其實這也是一種 Agent 落地普及的前兆。
無論是 vivo 的藍心小 V 和發布會展示可以 AI 訂餐的 「Phone GPT」,華為鴻蒙的小藝和意圖框架,還是榮耀的 YOYO 智能體,都和智譜今天發布的 Agent 的本質一樣:
讓 AI 模仿人類的 Plan-Do-Check-Act(計劃 - 執行 - 檢查 - 行動)循環 ,從而像人類那樣去操作設備。
就像智譜 AI CEO 張鵬今天的發布會提到,目前的 Agent 能力更像是在用戶和應用之間,增加一個智能的調度層,鏈接所有應用甚至是所有設備。
這可以看做是大模型通用作業系統 LLM-OS 的一種雛形,智譜也将這套 Agent 互動稱為 GLM-OS 的構建,将對人機互動形式產生極大的影響。
OpenAI 創始成員、AI 技術大牛 Andrej Karpathy 也曾多次談到大語言模型作業系統(LLM OS),他認為大模型某種程度來說就是一種新的計算機和作業系統,它可以連接各種軟體和硬體,以及所有模态信息組成的外設,并通過函數調用執行各種任務。
傳統作業系統中,你需要圍繞 CPU 構建一堆外設,比如滑鼠和鍵盤、磁盤存儲、以及緩存空間等。
而在 LLM OS 中,大模型本身就是中央處理器。I/O 外設也不再是滑鼠和鍵盤,因為 LLM 可以兼容更多模态的數據輸入和輸出。同時大模型調用的外部工具也将從傳統軟體更新為智能體工具。
其中跨應用的操作是非常關鍵的一環,這意味着 Agent 能實現更加復雜的自主連貫操作,也可能走向真正的商業化落地。
我們在年初曾判斷大模型将成為智能手機新的作業系統,自然用戶界面(Natural user interface, NUI )将逐步替代現有的圖形用戶界面(GUI)。
至于各家互聯網公司提供的服務能否打通,可能是未來實現這種互動最大的障礙。但無論是智能手機還是應用,都終将是人類發展史上一個階段性產物。
目前的 Agent 互動還在早期階段,在行業内 Scaling Law 遭遇瓶頸的背景下, Agent 要怎麼能成為真正的生產力工具,承擔更高比例的工作決策?
智譜 AutoGLM 技術負責人劉潇在接受 APPSO 采訪時表示,預訓練肯定還要繼續,但對于算法和數據的訓練會有一套新的邏輯。
智譜 AI CEO 張鵬也告訴 APPSO,團隊對于 Scaling Laws 的空間相對樂觀,希望在新的範式和生态下去探索更多可能性。
今年很多廠商不約而同用自動駕駛來形容 AI 終端的智能程度, OpenAI 也 将 AI 劃分為 L1-L5 五個等級。
與 OpenAI 有所不同,智譜将大模型發展的五個階段定義為:L1 語言能力、L2 邏輯能力(多模态能力)、L3 使用工具的能力、 L4 自我學習能力、 L5 探究科學規律。
張鵬認為,大模型已經初步具備了人類與現實物理世界互動的部分能力。「Agent 将極大地提升 L3 使用工具能力,同時開啟對 L4 自我學習能力的探索」。
從 Phone Use、Computer Use、Car Use 到 All Device Use,大模型的思考能力和 Agent 互動逐步影響我們使用智能設備的方式。
讓 AI 發微信和點贊現在看起來實用意義有限,但如同 AlphaGo 無論下棋多強都不會對社會帶來多少影響,Google DeepMind 的 AlphaFold 可以預測幾乎所有蛋白質結構,幫助大量疾病的治療和研究。
背後的範式改變才是撬動人類生活方式更新的杠杆,Agent 讓大模型從 Chat 走向 Act,下所謂 AI 終端的形态才逐漸浮現,而非只是一個命名的改變。
作者:李超凡、莫崇宇