你的榮耀手機學會「點螢幕」了，為什麼笨 AI 也有未來？

今天小編分享的科技經驗：你的榮耀手機學會「點螢幕」了，為什麼笨 AI 也有未來？，歡迎閲讀。

在移動世界通信大會 MWC 2025 上，我們看到榮耀和訂餐訂位產品 OpenTable 做的一次演示：用户用語音命令手機 AI 助理找家西班牙餐館訂個位，接着就看到手機螢幕被「接管」，一通自己操作。

這個 MWC 版本的演示，其實和榮耀去年 Magic 7 Pro 發布會上策劃的那次「行為藝術」，是同一件事。

當時在深圳的發布會上，時任榮耀 CEO 的趙明指揮 AI Agent YOYO 打開美團。他的手沒動，而是 YOYO 自己在螢幕上點來點去，一家店點了幾十杯飲料，支付，循環到下一家，繼續點，再循環，重復操作——直到最後下單了總共 2000 杯左右。

一通操作過後，深圳發布會場地周邊的瑞幸門店紛紛「爆單」，門店咖啡師忙到崩潰，接到訂單的騎手更是在門店排起長隊。

這次效果顯著卻略帶荒誕意味的事件營銷，一定程度上讓公眾忽略了榮耀試圖展示的核心技術：「基于 GUI 的個人 AI 智能體」。

時至今日，AI Agent 功能确實已經不新鮮了。而這個技術的關鍵點，在「GUI」這三個字上。

GUI 全稱 Graphical User Interface，圖形用户界面。作為一個基于 GUI 的 AI Agent，YOYO 不再依賴傳統的 API 接口，而是有了一只虛拟的「手」，直接在代替用户進行圖形界面操作。整個代行操作不在「後台」，而是直接在「前台」，在用户的眼皮底下實時發生。

https://s3.ifanr.com/wp-content/uploads/2025/03/10_1741061984.mp4

需要澄清的是：Magic 7 Pro 市售機型用户的體驗可能會與發布會演示存在差異。據财聯社報道，當時現場演示用的測試機權限更高，能夠自動免密支付和循環點單，這才不停地點出了 2000 杯飲料。至少在目前，市售機型需要用户明确告知點單細節（例如品牌、品名、杯型、温度等），并且在支付環節需要用户接管确認。

這個細節确實重要，但也不至于抹殺這項技術的存在意義。正相反，我們認為，「基于 GUI」是個很另類，很有趣，頗具試驗性的 AI Agent 實現路徑。

AI Agent 互動的「前台」新路

榮耀 YOYO 的核心是多模态模型，GUI 互動的本質是語言 + 視覺的理解。

自然語言處理 ( NLP ) ：理解「點一杯冰美式」的指令；

螢幕狀态感知：識别當前界面中的内容，找到正确的按鈕、輸入框等界面元素；

拟人化操作：像人類一樣點擊按鈕、輸入信息；

循環操作：在新的界面中持續解析内容、定位和點擊界面元素。

關于 GUI 的操作部分，這最後一步具體是怎樣實現的，榮耀方面沒有明确透露。一種穩妥的猜測是：它能夠獲得手機的無障礙功能 ( accessibility features ) 或類似的底層權限，從而控制螢幕點擊事件。

這最後一步并不是什麼難事，甚至比前面幾步都簡單得多。但除了此前智譜的 AutoGLM 等極少數之外，确實很少有其它第三方開發者和終端廠商在走 GUI 互動的路徑。

在過去，虛拟助理控制軟體和智能硬體的方式主要是通過 API 調用以及物聯網協定。這可以理解為一種純數字 ( digital ) 的通訊方式。

今年一月，谷歌在三星的指定機型上激活了基于 Gemini 2.0 的 AI Agent 功能。這次合作也是通過 API 或類似方式實現的（谷歌稱之為 Gemini 擴展），初期僅支持 Gmail、谷歌地圖、三星日歷、三星時鍾等第一方應用，以及 Spotify 等極少量第三方應用。

想要做到規模化，擴充支持的應用，需要開發者做一定量的 API 接入工作，同時也需要用户許可使用 Gemini 擴展。

▲ Gemini 控制手機演示圖源：Google

谷歌依賴 API 調用後台接口，而榮耀通過 GUI 模拟前台操作，二者在實現邏輯上形成了明顯區别。後者的好處，在于可以規避 API 調用這一常規方式，繞過了其背後的商業博弈和數據成本，也可以更快、更容易地擴充支持的應用，實現規模化并改善用户體驗。

成本是個關鍵問題。一方面是雲服務費用，因為無論是 API 提供方還是調用方都需要運行伺服器來進行操作。另一方面，通過 API 交換的數據也具有價值，因此具有更高數據價值的 API，往往收費也更高。

以美團舉例，其訂單服務在内的基礎 API 收費标準為每百次調用 0.15 元（前百萬次免費）。這還只是基礎類 API，如果涉及價值更高的管理類 API，調用收費提高到每百次 0.3 元，且無免費額度。

另外，API 的使用也暗含着一些隐性的商業競争要素。調用方獲得了數據，同時也在向提供方發送數據，而不排除在特定條件下，雙方都不希望肥水流向外人田。

而在基于 GUI 的方案下，至少就目前的演示效果來看，榮耀既不需要向美團支付 API 費用，雙方也無需擔心數據的歸屬，包括與之關聯的隐私安全等問題。

AI Agent 只是在「模仿人類」點擊螢幕，多麼原始卻有效的互動方式。

回歸模拟，返璞歸真

這種「返祖」式技術路徑，讓人聯想到谷歌在2018 年推出的 AI 電話助手 Duplex。

Duplex 的思路在當時同樣有點腦洞清奇：谷歌合成了一個 AI 語音，替用户給餐館打電話訂位。這個 AI 語音聽起來并不生硬，甚至能夠模仿真人的口音、語速、語調，以及加入「嗯」、「you know」之類的填充詞。

▲ Duplex 技術演示圖源：Google

今時今日，AI 生成語音已經徹底「污染」了電銷和客服行業，讓人感到厭煩。但至少在當時，用頂尖的 NLP和語音合成技術，通過「打電話」這種模拟人類的方式訂餐，這種另類的，從數字到模拟 ( analog ) 的互動方式，确實令人耳目一新。

目前榮耀正在推進的基于 GUI 的 AI Agent，在我看來同樣屬于一種從數字到模拟的實現方式，用原始與先進相結合的思路，帶來了全新的可能性。

基于 GUI 不一定是實現手機 AI Agent 的最佳路徑，但不可否認它确實很有趣，甚至有點「硬來」的意思。

對于用户來説，使喚這樣的 AI Agent 沒有學習成本，不需要研究提示語法；

而對于第三方應用和服務平台來説，也幾乎不需要額外的開發成本就可以接入。甚至反過來看，它們也無法拒絕被「接入」，因為壓根就沒有發生真正意義上的「接入」行為。至少以 Android 目前的沙箱機制來看，應用層不太能夠「抵抗」系統底層的行為。

基于 GUI 的 AI Agent，既是一種對傳統人機互動的致敬，也為 AI Agent 的落地和體驗提升，提供了一種降低門檻、提高兼容性的路徑。

有時候，最趁手的工具，真就只是一根幹淨簡潔的大棒。

大模型與人機互動結合，「笨」AI 也有未來

在今天用户的主要需求場景上，有兩種 AI Agent。一種是高智商型，能夠解答復雜問題，完成困難的工作，比如 DeepSeek、Claude、以及前幾天大熱門的 Manus。這也是現在最流行最受關注的 AI Agent/Chatbot 種類。

但我們同樣需要另一種懂事能幹的 AI Agent，它對用户的使用技巧沒有很高的門檻，用户只要輸入一兩句簡單直白的命令，它就能理解，并且把各種并不復雜的事給辦好。

今天可以點外賣，将來它還能夠幫你連線放置類遊戲，給指定好友的朋友圈點贊，甚至自動把剛拍下的一張照片修改一下發到社交網絡。只要是用户能做的，基于 GUI 的 AI agent 一樣能做。門檻低，上限高，适應性強，用起來更順手，可能是這一類 AI Agent 的主要特色。

這類選手不需要成為理解世界的大學者，只當好執行任務的工具人就足矣。

2013 年的電影《雲端情人》 ( Her ) ，曾經賦予人們展開無限的遐想。當時也正值 NLP 技術大爆發，許多優秀的語音場景產品和技術湧現出來。一些研究者和從業者笃信，自然語言對話将會成為 AI 交流的最主流方式。

然而去年昙花一現的硬體產品 AI Pin，以及開發它的 Humane 公司越走越黑的路，不禁令人懷疑《雲端情人》設想的烏托邦是否那般美好，語音究竟是不是 Chatbot/Agent 的終極答案。

▲ Humane AI Pin 圖源：Humane

進入觸屏時代，互動的門檻顯著降低，以至于幼兒也能輕松地掌握。按照 AI 開發者們經常采用的比喻，大模型們的「智力」也恰如兒童。那麼讓 AI 通過觸屏界面學習人類行為，聽上去上還是很有希望的。

畢竟，你的伴侶不一定需要一首 AI 寫的詩，卻可能需要你按爛螢幕去搶一張周傑倫的演唱會門票。

前幾天 Manus 刷屏，再次佐證了我們曾做出的一個預測：大模型将成為智能手機新的作業系統，自然用户界面 ( Natural user interface, NUI ) 将逐步替代現有的 GUI。

至少在目前看來，歷經半個世紀發展的 GUI 仍會是人機互動的絕對主流。不過，大模型與 UI 結合，對人機互動進行一次前所未有的重新定義，甚至成為新的作業系統——這樣的未來，的确越來越清晰了。