今天小編分享的互聯網經驗:鏖戰 AI Agents:矽谷修路,中國造車,歡迎閱讀。
AI Agent 行業的全球圖景,中國和矽谷正在走上兩條路線。
矽谷正在逐步拆掉影響 Agent 發展的牆,從 0-1 的建立規則。從 Anthropic 推出了 MCP 開放協定,統一了大模型連接應用的方式,到谷歌發布名為 Agent2Agent(A2A)的全新開放協定,建立了 Agent 與 Agent 之間的對話語言。越來越多的互聯網公司開始加入 MCP 陣營,包括 Anthropic 的老對手 OpenAI,矽谷超過 2000+企業,國内阿裡百煉平台、魔搭開發社區開始構建基于 MCP 的平台,騰訊雲、百度雲等雲平台也在陸續加入。
看起來節奏清晰井井有條。
而國内的 AI Agent 領網域,則顯得更加躁動。一邊 Manus 以 " 全自動 Agent" 的故事引爆着資本熱潮,另一邊則是曾經的行業獨角獸瀾碼科技遭遇發展危機,被曝出停薪資、停社保已經超過三個月,并于近期對數十名員工解除勞動合同。
"Manus 爆火後,投資人把相關文章甩給我們質問‘人家這麼牛,你們為什麼不行?’ " 某 Agent 公司創始人在收到如此詢問時,她甚至找不到合适的語言向資方解釋,什麼是模塊 " 縫合怪 "。但與此同時,這種混亂又在給他們帶來實打實的新增訂單需求。客戶不再問 AI Agent 是什麼,而是直接提需求下訂單。
它們都指向一個重要的信号:Agent 行業正從 " 概念驗證期 " 邁入 " 生态定型期 ",技術标準與商業模式的 " 分水嶺 " 已然浮現。在這兩種不同的氛圍背後,是兩種不同的路線,矽谷沉迷于對 AI Agent 制定規則,而中國公司已經在搶跑了。
中國為什麼沒有 MCP?
首先我們必須明确的是:Agent 不僅僅是一種應用形态,将其簡單對比 " 超級應用 " 實際上是對其本質的誤解。Agent 代表了一條全新的產業鏈,它連接并整合了多個技術環節,需要調動幾乎整個互聯網生态的軟體資源。
我們簡單制作了目前 Agent 產業生态的圖譜(當然它是動态變化的)以供大家理解。當前,構建真正通用的智能體需要兩個核心要素:一是強大的 " 大腦 ":能夠接收任務并進行精細拆解,對每個步驟的微操作都能完美執行,這要求大模型具備強大的多模态能力;而是可靠的 " 手腳 ",則能夠穩定執行在各種環境中,确保跨平台、跨設備的一致性表現。
針對 To C 和 To B 兩種場景,對 Agent 的能力要求截然不同:To C 的通用型 Agent 不必追求極高準确性,但需要更強的通用性和靈活性,依賴強大的 " 大腦 " 進行決策;而 To B 場景下的 " 數字員工 " 則要求極高的準确性,對靈活性要求相對較低,更依賴高效穩定的 " 手腳 " 執行能力。
因此,行業内幾乎形成共識:通用型 Agent 深度依賴基礎模型能力,本質上是模型廠商能力的延伸,會随模型更新而進化,創業公司在此領網域能施展的空間極為有限。
從這一視角看,Anthropic 作為基礎模型廠商率先推出 MCP,并非因其擁有最強話語權,而是因其最需要與互聯網現有軟體生态建立連接,實現底層能力的整合與打通。
矽谷與中國在 Agent 領網域的發展差異,正是兩地軟體生态長期積累形成的根本區别的直接反映。矽谷軟體生态以高度标準化和互聯互通為核心特征。制造業 Agent 數字員工打造者語核科技創始人翟星吉精準指出:" 美國市場中,每個細分場景往往會有獨立的 SaaS 公司提供垂直服務,這使得互通互聯成為 Agent 發展的必要條件 "。在 SaaS 普及率超過 80% 的環境下,Salesforce、Slack 等頭部產品成為企業标配,自然催生了對标準化接口的強烈需求。
在 MCP 等統一協定框架下,現有 SaaS 服務自然成為生态組成部分,既服務終端用戶,又能被其他 Agent 調用。企業級數字員工 AI Agent 平台來也科技 CTO 胡一川形象地比喻:"MCP 對行業的影響類似于 USB-C 标準化對電子設備的影響,它大幅降低了開發成本。以前 100 個開發者連接 100 個工具需要 10000 項工作,現在通過 MCP,雙方只需準備好對應接口,即可實現全面連接,工作量呈指數級下降。"
相比之下,中國軟體生态發展不均衡,而這種軟體生态的根本差異,最終導致了中國缺乏類似 MCP 的統一協定标準。這不只是 Agent 技術路徑的不同,更顯現了數字基礎設施發展階段的不同。
一旦 MCP 與 A2A 構建起智能體世界的 " 水電煤 " 基礎設施,後來者要麼接入這套體系成為生态參與者,要麼被排除在主流互動網絡之外。
那麼制定标準的人将掌握了最重要的話語權,如同我們所見的安卓系統,或是 Cuda,當下國内 Agent 公司都正面臨着是加入還是獨立發展的重要節點。
從當前的情況來看,似乎中國互聯網的基礎模型公司,并沒有另起爐灶的打算。 4 月 15 日,魔搭推出全新 MCP 廣場,上架千餘款熱門的 MCP 服務。魔搭 MCP 產品經理告訴矽星人:" 我們正在成為 MCP 的生态共建者,包括建立一些 MCP 應用的 BenchMark,以及給一些應用提供啟動流量等等。"
本該是兵家必争之地的标準制定者,為什麼基模廠商輕易讓給了 Anthropic?
據矽星人的了解,一部分原因是因為統一協定本身可能只是 AI 發展的階段性產物,從技術的角度來說,一旦建立了 Agent 的通用行動模型(參考機器人模型),就可以繞過 API 或者協定接口,直接完成操作,争也只是一時;另一方面,互聯網大廠們快速加入 MCP 陣營後,能夠将此前的優勢積累釋放,比如魔搭接入了收割支付寶提供的支付 MCP 接口,一旦 Agent 采用了通用的支付接口,支付生态可以在 AI 時代復利,這或許是一個比掌握協定本身更大的市場。
矽谷修路,中國造車
矽谷通過推動統一協定标準,對 Agent 生态而言就像是在 " 修路 ",建立基礎設施和互聯互通的标準。而中國企業則專注于 " 造車 ",打造能在特定場景下高效運行的實用解決方案。加入 MCP、A2A 或其他協定,對中國企業而言只是時間和選擇問題。無論哪種路徑,最終要讓 Agent 生态完整運轉,都需要一輛輛 " 車 " 真正跑起來。
在中國市場,C 端 Agent 仍處于非常早期階段,以智譜 AutoGLM 為代表的通用智能體正在積極打磨產品形态、技術路線和商業模式,而絕大多數創業公司則将目光聚焦在 2B 領網域。
" 我們認為未來 2-3 年是智能體商業化落地的關鍵視窗期。端到端的純大模型方案 ( 如 Manus 等 ) 不太可能在這個時間視窗内達到理想的商業落地水平,因為它們在可控性、穩定性和成本方面仍存在重大挑戰。" 企業級通用智能體企業實在智能創始人孫林君判斷道。
To B 的快速發展首先來源于市場需求的爆發性增長。" 自從今年 2 月 DeepSeek 發布之後,我們明顯感受到企業級 Agent 市場迎來了一波 ' 爆單潮 '," 翟星吉回憶道," 僅在最近三個月,我們在推進的新項目就超過了 20 個,今年的預期營收也超過了千萬。這在以前是很難想象的速度。"
胡一川也表達了類似觀察:" 我們在制造業和金融領網域的 Agent 項目詢單量比去年同期暴增了數倍。企業客戶對 AI Agent 的熱情程度遠超我們預期,尤其是那些有明确流程優化需求的傳統行業客戶。"
其次是 to B 領網域相對清晰的商業模式,比如将銷售轉化率從 5% 提升到 6%,雖然只增加了 1 個百分點,但對企業來說實際增長了 20%,對大型企業而言這是相當可觀的收益。
實際上,to B Agent 實際上替代了傳統的定制化系統,以更高效的方式解決企業痛點。這些 " 數字員工 " 正在形成全新的商業模式,不同于傳統 SaaS 的固定功能,它們能夠根據企業需求持續進化,實現真正的軟體 " 活體化 "。
" 其實,MCP 這類協定對 2C 市場的影響遠大于 2B 領網域。在企業場景中,系統大多采用封閉架構,且以本地私有化部署為主,很少需要連接公共互聯網應用。" 翟星吉補充到,這一特點使得中國企業在缺乏協定層支撐的情況下,被迫自主研發從數據處理到執行操作的全鏈條技術棧。
語核 Langtum 企業級 Agent 應用落地平台
如語核科技,其技術核心之一在于自研的工業文檔解析引擎,專門處理企業分散的非結構化數據(将 PDF 格式的工藝參數表轉化為結構化數據),以便大模型能夠更好地理解行業專業知識。在矽谷,這本應是獨立細分賽道的技術環節,但在中國市場環境下,語核不得不将其作為 Agent 解決方案的一部分直接交付。
" 比如在制造業的采購環節,我們的 Agent 能夠自動校對采購單、查找供應商、比對報價并完成下單流程,将原本需要 2-3 天的工作壓縮至 30 分鍾内完成,同時還能保持 95% 的準确性。" 翟星吉講道。
來也科技則是通過将 RPA ( 流程自動化 ) 與 AI 結合,構建出一個一體化平台,來保證更高準确率和更強靈活性。" 我們的方案不是簡單地将大模型和 RPA 拼接,而是構建了一個能夠自我調整的智能系統," 胡一川解釋道," 在傳統 RPA 的基礎上,我們增加了決策節點,允許系統在執行過程中根據實時情況進行判斷和路徑調整。"
來也科技數字員工平台架構圖
例如,在某大型汽車主機廠的質檢環節,來也科技的 Agent 能夠自動識别并處理各類質檢文檔,當遇到異常情況時,系統會自動調用歷史案例庫進行比對分析,确定最佳處理方案。" 這一應用将質檢文檔處理時間從原來的 8 小時縮短至 1 小時,準确率提升至 99.2%,每年為客戶節省人力成本超過 200 萬元。" 胡一川補充道," 更重要的是,随着使用時間延長,系統能夠不斷學習新的異常模式,持續提升處理能力。"
中國企業在構建 Agent 時往往采取這種 " 由點及面 " 的策略:先在特定場景中解決核心痛點,然後逐步擴展功能範圍。實在智能創始人孫林君描述了他們的方法:" 我們首先為制造業客戶打造質檢文檔處理的專用 Agent,證明價值後,再逐步擴展到生產計劃、物料管理等相關環節,最終形成覆蓋整個生產管理鏈條的智能體系統。"
當積累了大量針對復雜場景的實戰經驗,具體場景中的 Agent 往往具有更強的環境适應能力和問題解決能力。
Agent 的另一種解法
矽谷的軟體生态已經高度成熟,MCP 等協定正在将這一生态重新連接,形成 Agent 主導的新格局。但這一趨勢不可避免地将逐漸弱化傳統軟體企業的地位,使軟體最終成為 Agent 的組件。
在美國,各軟體間的标準化接口已經成為基礎設施,Agent 開發可以專注于調用這些接口。而在中國,Agent 企業必須直面軟體碎片化的現實,通過創新性的技術路徑解決執行層問題。從某種意義上說,這反而催生了更加普适的技術方向。
" 我們看到一個根本性問題:傳統的 Agent 執行層要麼依賴 API 調用,要麼依賴像素級的視覺模拟,兩者都存在明顯局限," 實在智能創始人孫林君解釋道," 前者在中國企業軟體生态中成本很高且速度慢 ,後者則面臨穩定性和泛化能力不足的挑戰。"
那麼,RPA 方案和視覺感知方案有沒有可能融合在一起?實在智能創新性的嘗試了 " 融合拾取技術 "。
" 我們訓練了一個名為塔斯(TARS)的垂直大模型,專注于電腦操作領網域。這個模型提升了任務理解、狀态識别和操作決策能力,本質上是一種‘ text-to-action ’或更精确地說是‘ text+image-to-action ’模型。例如,當看到一個有搜索框和按鈕的界面時,模型能理解「搜索實在智能」這樣的指令,确定需要在搜索框中輸入文本并點擊特定按鈕,然後生成相應代碼執行操作。"
" 我們訓練的視覺模型可在 100-200 毫秒内識别界面中的各類元素(輸入框、按鈕、下拉菜單、表格、對話框、密碼區網域等),然後将這些視覺識别結果與傳統方式識别的底層元素整合。目前在網頁元素識别和操作方面比 GPT-4o 高出約 10 個百分點,在任務拆解方面高出 4-5 個百分點,這項技術也獲得國家優秀獎專利。" 孫林君補充道。
一般遇到未見過的軟體,都需要派工程師到客戶現場進行适配。但現實中未見過的軟體可能是無窮無盡的,這種人工适配模式難以擴展。融合拾取突破了傳統 Computer Vision 方案對螢幕分辨率和界面布局的依賴,提高了 Agent 在真實復雜環境中的适應能力。
除了技術創新外,在生态構建上也出現了新的機會。Agent 公司究竟應該以什麼身份對企業進行服務?是傳統軟體?定制化系統?還是 AI 技術提供商?商業模式是軟體付費模式、按 token 付費、還是以 " 數字員工 " 的形式按人頭付費?
" 我們認識到一個現實:在 2B 領網域,尤其是傳統行業,行業 know-how 的積累至關重要,但從 0 到 1 自己完成這一過程周期太長,很難滿足當下市場的迫切需求,"AI Agent 智能體雲生态服務平台匯智智能創始人孫志明表示," 因此我們選擇了另一條路——成為行業知識與 AI 技術的整合者,将已經數字化的行業知識與 Agent 能力結合,打造 1+1 大于 2 的解決方案。"
這種模式的核心在于識别并整合已被數字化的行業知識。在制造業、醫療、金融等領網域,過去十年的信息化建設已經沉澱了大量專業知識,孫志明解釋到," 例如,ERP 系統中的工藝流程、醫療系統中的診斷規則、金融系統中的風控模型,這些都是經過多年驗證的行業智慧。我們不需要重新發明輪子,而是将這些知識提取、結構化,然後與大模型能力結合。我們與行業信息化服務商、垂直領網域咨詢公司、以及專業數據提供商建立了深度合作關系,共同打造完整的智能解決方案。"
對于像瀾碼這樣的創業公司,從 0 到 1 自主積累行業知識确實周期過長,對創企的考驗也更加大,核心原因在于沒有找準自己的定位,是技術提供者、知識整合者還是解決方案交付者,然後圍繞這一定位構建合作生态。
相比之下,新的商業模式或許更加适合中國市場現狀。在中國大型企業的數字化程度參差不齊,但幾乎所有企業都有不同程度的信息化基礎,在 Agent 驅動下,或許能重新定義軟體服務的形态和交付方式。
畢竟,技術發展從來不是單一直線,在這個過程中,中國企業和矽谷巨頭都在用各自的方式,共同推動 Agent 走向成熟。