今天小編分享的科技經驗:擠爆字節伺服器的Agent到底啥水平?一手實測來了,歡迎閲讀。
" 字節版 Manus" 有多能打?量子位實測在此。
△扣子智能體生成的活動介紹網頁
我們用光了一天的對話額度,考驗了扣子空間(Coze Space)的信息整理、任務執行、工具調用等多項技能。
結果,仍處在早期測試中的扣子空間整體表現已經相當驚豔,在自主任務規劃和資料搜集方面表現不錯,已經具備解決很多真實任務的潛力。
不過在指令遵循方面,還是比較 " 有自己的想法 "。
簡單介紹一下,扣子空間是字節在剛剛過去的周末推出的智能體協作系統,官方主打 " 你和 AI Agent 協同辦公的最佳場所 "。
由于放出來的 demo 效果驚豔,過去幾天裏還出現了擠爆伺服器的場面。
而第一波拿到邀請碼的幸運兒,在體驗後也第一時間分享了使用感受:
對比智能體确實是一個大飛躍。
更适合用來分析報告,主要作用是幫助用户搭起整體框架。
當然,作為幸運兒之一,我們也趕緊進行了一波實測。
有腦有手的通用智能體
扣子平台的通用智能體,抽成了探索和規劃兩種模式,官方的介紹是這樣的:
實際用下來的話,探索模式更注重效率,而規劃模式則會對任務進行詳細拆分,條理更加清晰。
自動整理搜集信息,一句話制作網頁 /PPT
先來看探索模式,我們讓它整理了一下波音 747 系列飛機的發展歷程。
可以看到,智能體根據給出的話題自行擴展延伸了許多搜索詞并執行了檢索,最後形成了一份文字報告。
利用整理好的資料,可以直接制作出一個網頁(或者 PPT 也可以),頁面包含了比較豐富的内容,排布簡潔,美觀性也説得過去。
并且除了文字内容,生成網頁時智能體還補充了產量統計圖和關鍵時間線。
有腦還有手,自主規劃執行任務
在規劃模式下,扣子智能體不僅會整理資料,還支持在虛拟沙盒環境中操縱電腦、浏覽網頁,執行訂票等操作。
比如我們讓它幫忙訂一張明天(23 日)下午從北京到上海的高鐵票。
比較有意思的是,智能體一開始的動作是搜索高鐵票該怎麼訂,不清楚是模型自己真的不知道,還是這裏強制設定了檢索過程,但總之,如果真遇到不會的技能,通過檢索來彌補也不失為一種策略。
12306 平台需要登錄才能進行訂票,智能體能夠準确識别到這種狀況,并提示我們手動接管。
不過,可能是沙盒環境受到了限制,在執行檢索之後頁面并未顯示結果,因此整個流程未能順利完成。
但從智能體的操作過程來看,網頁信息識别和規劃執行能力已經很不錯了。
接入 MCP,智能體不再 " 孤軍奮戰 "
除此之外,扣子也支持 MCP 協定,并接入了飛書文檔、GitHub、MySQL 數據庫、天氣、地圖等一系列 MCP 應用。
于是結合 MCP,我們來整個大活。
上周,量子位中國 AIGC 產業峰會 2025 成功舉行,我們将其會議流程和嘉賓信息整理到了一份文檔當中,要求智能體将這些材料整理出一份網頁版會議指南。
并且還調用了地圖、天氣和語音合成三個 MCP 插件,在網頁中加入天氣預報、交通指南和嘉賓介紹語音播報。
可以看到,智能體首先利用工具從文檔中提取出文本,然後通過 MCP 協定調取了天氣、地圖等信息。
由于任務比較復雜,制作耗時也比較長,第一版成品長這樣:
這個版本,要求的内容都有呈現,但是活動流程沒有遵循要求的格式,天氣預報的日期也不對。
所以我們針對這兩點要求智能體進行修改,修改的過程沒有一步到位,而是經過了多輪調整。
以及到後面修改的過程才發現,扣子智能體一開始偷懶并沒有合成嘉賓介紹的語音,只是在網頁裏放了按鈕,單獨指出之後才開始合成。
不過最終還是得到了符合期待的頁面,該有的内容都正常展現,滑動和點擊查看詳情的功能都成功實現,合成的音頻也能正常播放。
雖然整體經歷了不短的時間,但對于一個完全不懂網頁制作的用户而言,扣子智能體已經很好地解決了工具有無的問題。
在時間上,一個可以改進的方向是讓可以并行進行的任務同時進行,比如這個任務當中的語音合成實際上是獨立于網頁設計的,而智能體目前采用的是串行方式,帶來了不少的額外耗時。
總結一下,作為一個通用智能體,扣子智能體的任務規劃比較合理,資料搜集能力也表現不錯,不過在指令遵循方面,還是比較 " 有自己的想法 "。
當然作為通用智能體,優先考量是提升技能的豐富度,盡可能覆蓋更多的任務,所以在具體任務細節上,也還有不少提升空間。
更懂行的專家智能體
所以,在通用 Agent 之外,扣子空間還提供了「專家模式」。
Beta 測試版首頁,目前有兩個專家 Agent:
用户研究專家:模型學習了字節資深用研專家、產品經理等分享的用研工作技巧;
華泰 A 股觀察助手:扣子團隊與華泰證券聯合孵化的 Agent,讓模型學習了如何分析上市公司和發展潛力等專業知識。
我們實測下來發現,吸收了更多私人數據和第三方數據的專家 Agent,在實用性方面确實大有提升,尤其在面對復雜任務過程中易出錯的問題,它總是能自主發現錯誤并不斷嘗試更正。
不過由于涉及的領網域确實比較專業,任務耗時也大大增加,類似股票分析的任務往往需要運行幾十分鍾。
以下為具體實測過程。
0 產品經驗也能做出完整用户調研
假如有一個新入行的產品經理,想要設計一個北京地區的户外活動 APP,需要對用户需求進行調研。
盡管沒有工作經驗,也可以使用簡單描述來生成一份用户訪談提綱。
然後我們又繼續在輸入框中下達新指令:
再幫我生成一份調研問卷。
從思考過程可以看到,面對一個比較模糊的需求,它能通過自主規劃(設計約 30 個問題的調研問卷)進一步明确任務。
而且評估其生成效果,從一名資深户外運動愛好者的角度來看,這份調研報告可謂非常完整——
7 個大類、30 個小問題,從用户基本信息到户外運動參與情況、活動信息與獲取等等,均考慮到了。
接下來,鑑于我們目前缺少真實問卷結果,所以又給它扔了個 " 麻煩 ":
能直接幫我生成一份虛拟完整用户調研數據,并最終生成一份用户分析報告嗎?
大約幾分鍾後,這個 Agent 自己生成了一份虛拟用户數據:
橫向标準項需要長時間拖動才能看完整,豎向共有 100 條數據:
當然,過程中 Agent 也自己發現了錯誤,并多次嘗試更正。
整體而言,這個用户研究 Agent 具備問卷數據分析、訪談紀要總結、調研問卷生成、訪談提綱生成這四大能力,即使零產品經驗也能通過持續對話實現自己的調研需求。
每天都能收到專屬股票早報
而另一個股票專家 Agent,由于涉及的領網域比較復雜,官網顯示平均任務耗時為42 分鍾。
能做的事兒包括下面這些:
這裏我們簡單測試了其早報生成功能。
支持選定 3 支關注的股票(這裏就不具體展示選了哪些了),以及三個關注的板塊,然後給出當日 A 股早報。
有意思的是,相比之前的用户調研 Agent,這個智能體則更加謹慎了,過程中還需要用户手動确認其階段性完成情況,然後才繼續執行。
而且整個過程搜集了大量數據:
不過比較遺憾的是,截至發稿前(已經跑了一個多小時),可能由于伺服器資源問題,暫時沒有跑出最終結果。
然而,從其他網友對該智能體的測試來看,據稱效果驚豔。
(股票功能)實測蠻驚豔的
小結一下,相比通用 Agent,專家 Agent 在實用性方面确實更勝一籌。
就產品的初步設計來看,和 " 扣子空間 " 這個名字相呼應,扣子團隊希望打造一個 " 通用 Agent 和專家 Agent 協作的系統 "。
不過按照扣子團隊的長期設想,最終目标則還是打造一個開放的 Agent 系統——
當用户提出需求時,系統能自動調度最合适的一位或多位專家 Agent 協同完成任務。
而抛開長遠不談,僅就當下這個測試版扣子空間而言,得益于它在自主規劃和任務驅動方面的加強,對于絕大多數實際情況,它已經是一個可以上手、能用的 Agent 系統了。
One More Thing
這一次,字節在扣子空間上還搞了一波 " 裂變玩法 "。
我們實測過程中發現,在執行完第一個任務之後,還可以得到五個邀請碼。
并且當五個邀請碼全部用完後,還能獲得更多邀請資格。
所以相比其他家那種完全封閉的測試,扣子空間的體驗資格也更容易獲得。
最後,有獲得邀請碼的童鞋來説説你的使用體驗嗎?
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
點亮星标
科技前沿進展每日見