今天小编分享的互联网经验:鏖战 AI Agents:硅谷修路,中国造车,欢迎阅读。
AI Agent 行业的全球图景,中国和硅谷正在走上两条路线。
硅谷正在逐步拆掉影响 Agent 发展的墙,从 0-1 的建立规则。从 Anthropic 推出了 MCP 开放協定,统一了大模型连接应用的方式,到谷歌发布名为 Agent2Agent(A2A)的全新开放協定,建立了 Agent 与 Agent 之间的对话语言。越来越多的互联网公司开始加入 MCP 阵营,包括 Anthropic 的老对手 OpenAI,硅谷超过 2000+企业,国内阿里百炼平台、魔搭开发社区开始构建基于 MCP 的平台,腾讯云、百度云等云平台也在陆续加入。
看起来节奏清晰井井有条。
而国内的 AI Agent 领網域,则显得更加躁动。一边 Manus 以 " 全自动 Agent" 的故事引爆着资本热潮,另一边则是曾经的行业独角兽澜码科技遭遇发展危机,被曝出停薪资、停社保已经超过三个月,并于近期对数十名员工解除劳动合同。
"Manus 爆火后,投资人把相关文章甩给我们质问‘人家这么牛,你们为什么不行?’ " 某 Agent 公司创始人在收到如此询问时,她甚至找不到合适的语言向资方解释,什么是模块 " 缝合怪 "。但与此同时,这种混乱又在给他们带来实打实的新增订单需求。客户不再问 AI Agent 是什么,而是直接提需求下订单。
它们都指向一个重要的信号:Agent 行业正从 " 概念验证期 " 迈入 " 生态定型期 ",技术标准与商业模式的 " 分水岭 " 已然浮现。在这两种不同的氛围背后,是两种不同的路线,硅谷沉迷于对 AI Agent 制定规则,而中国公司已经在抢跑了。
中国为什么没有 MCP?
首先我们必须明确的是:Agent 不仅仅是一种应用形态,将其简单对比 " 超级应用 " 实际上是对其本质的误解。Agent 代表了一条全新的产业链,它连接并整合了多个技术环节,需要调动几乎整个互联网生态的軟體资源。
我们简单制作了目前 Agent 产业生态的图谱(当然它是动态变化的)以供大家理解。当前,构建真正通用的智能体需要两个核心要素:一是强大的 " 大腦 ":能够接收任务并进行精细拆解,对每个步骤的微操作都能完美执行,这要求大模型具备强大的多模态能力;而是可靠的 " 手脚 ",则能够稳定执行在各种环境中,确保跨平台、跨设备的一致性表现。
针对 To C 和 To B 两种场景,对 Agent 的能力要求截然不同:To C 的通用型 Agent 不必追求极高准确性,但需要更强的通用性和灵活性,依赖强大的 " 大腦 " 进行决策;而 To B 场景下的 " 数字员工 " 则要求极高的准确性,对灵活性要求相对较低,更依赖高效稳定的 " 手脚 " 执行能力。
因此,行业内几乎形成共识:通用型 Agent 深度依赖基础模型能力,本质上是模型厂商能力的延伸,会随模型更新而进化,创业公司在此领網域能施展的空间极为有限。
从这一视角看,Anthropic 作为基础模型厂商率先推出 MCP,并非因其拥有最强话语权,而是因其最需要与互联网现有軟體生态建立连接,实现底层能力的整合与打通。
硅谷与中国在 Agent 领網域的发展差异,正是两地軟體生态长期积累形成的根本区别的直接反映。硅谷軟體生态以高度标准化和互联互通为核心特征。制造业 Agent 数字员工打造者语核科技创始人翟星吉精准指出:" 美国市场中,每个细分场景往往会有独立的 SaaS 公司提供垂直服务,这使得互通互联成为 Agent 发展的必要条件 "。在 SaaS 普及率超过 80% 的环境下,Salesforce、Slack 等头部产品成为企业标配,自然催生了对标准化接口的强烈需求。
在 MCP 等统一協定框架下,现有 SaaS 服务自然成为生态组成部分,既服务终端用户,又能被其他 Agent 调用。企业级数字员工 AI Agent 平台来也科技 CTO 胡一川形象地比喻:"MCP 对行业的影响类似于 USB-C 标准化对电子设备的影响,它大幅降低了开发成本。以前 100 个开发者连接 100 个工具需要 10000 项工作,现在通过 MCP,双方只需准备好对应接口,即可实现全面连接,工作量呈指数级下降。"
相比之下,中国軟體生态发展不均衡,而这种軟體生态的根本差异,最终导致了中国缺乏类似 MCP 的统一協定标准。这不只是 Agent 技术路径的不同,更显现了数字基础设施发展阶段的不同。
一旦 MCP 与 A2A 构建起智能体世界的 " 水电煤 " 基础设施,后来者要么接入这套体系成为生态参与者,要么被排除在主流互動网络之外。
那么制定标准的人将掌握了最重要的话语权,如同我们所见的安卓系统,或是 Cuda,当下国内 Agent 公司都正面临着是加入还是独立发展的重要节点。
从当前的情况来看,似乎中国互联网的基础模型公司,并没有另起炉灶的打算。 4 月 15 日,魔搭推出全新 MCP 广场,上架千余款热门的 MCP 服务。魔搭 MCP 产品经理告诉硅星人:" 我们正在成为 MCP 的生态共建者,包括建立一些 MCP 应用的 BenchMark,以及给一些应用提供启动流量等等。"
本该是兵家必争之地的标准制定者,为什么基模厂商轻易让给了 Anthropic?
据硅星人的了解,一部分原因是因为统一協定本身可能只是 AI 发展的阶段性产物,从技术的角度来说,一旦建立了 Agent 的通用行动模型(参考机器人模型),就可以绕过 API 或者協定接口,直接完成操作,争也只是一时;另一方面,互联网大厂们快速加入 MCP 阵营后,能够将此前的优势积累释放,比如魔搭接入了收割支付宝提供的支付 MCP 接口,一旦 Agent 采用了通用的支付接口,支付生态可以在 AI 时代复利,这或许是一个比掌握協定本身更大的市场。
硅谷修路,中国造车
硅谷通过推动统一協定标准,对 Agent 生态而言就像是在 " 修路 ",建立基础设施和互联互通的标准。而中国企业则专注于 " 造车 ",打造能在特定场景下高效运行的实用解决方案。加入 MCP、A2A 或其他協定,对中国企业而言只是时间和选择问题。无论哪种路径,最终要让 Agent 生态完整运转,都需要一辆辆 " 车 " 真正跑起来。
在中国市场,C 端 Agent 仍处于非常早期阶段,以智谱 AutoGLM 为代表的通用智能体正在积极打磨产品形态、技术路线和商业模式,而绝大多数创业公司则将目光聚焦在 2B 领網域。
" 我们认为未来 2-3 年是智能体商业化落地的关键視窗期。端到端的纯大模型方案 ( 如 Manus 等 ) 不太可能在这个时间視窗内达到理想的商业落地水平,因为它们在可控性、稳定性和成本方面仍存在重大挑战。" 企业级通用智能体企业实在智能创始人孙林君判断道。
To B 的快速发展首先来源于市场需求的爆发性增长。" 自从今年 2 月 DeepSeek 发布之后,我们明显感受到企业级 Agent 市场迎来了一波 ' 爆单潮 '," 翟星吉回忆道," 仅在最近三个月,我们在推进的新项目就超过了 20 个,今年的预期营收也超过了千万。这在以前是很难想象的速度。"
胡一川也表达了类似观察:" 我们在制造业和金融领網域的 Agent 项目询单量比去年同期暴增了数倍。企业客户对 AI Agent 的热情程度远超我们预期,尤其是那些有明确流程优化需求的传统行业客户。"
其次是 to B 领網域相对清晰的商业模式,比如将销售转化率从 5% 提升到 6%,虽然只增加了 1 个百分点,但对企业来说实际增长了 20%,对大型企业而言这是相当可观的收益。
实际上,to B Agent 实际上替代了传统的定制化系统,以更高效的方式解决企业痛点。这些 " 数字员工 " 正在形成全新的商业模式,不同于传统 SaaS 的固定功能,它们能够根据企业需求持续进化,实现真正的軟體 " 活体化 "。
" 其实,MCP 这类協定对 2C 市场的影响远大于 2B 领網域。在企业场景中,系统大多采用封闭架构,且以本地私有化部署为主,很少需要连接公共互联网应用。" 翟星吉补充到,这一特点使得中国企业在缺乏協定层支撑的情况下,被迫自主研发从数据处理到执行操作的全链条技术栈。
语核 Langtum 企业级 Agent 应用落地平台
如语核科技,其技术核心之一在于自研的工业文档解析引擎,专门处理企业分散的非结构化数据(将 PDF 格式的工艺参数表转化为结构化数据),以便大模型能够更好地理解行业专业知识。在硅谷,这本应是独立细分赛道的技术环节,但在中国市场环境下,语核不得不将其作为 Agent 解决方案的一部分直接交付。
" 比如在制造业的采购环节,我们的 Agent 能够自动校对采购单、查找供应商、比对报价并完成下单流程,将原本需要 2-3 天的工作压缩至 30 分钟内完成,同时还能保持 95% 的准确性。" 翟星吉讲道。
来也科技则是通过将 RPA ( 流程自动化 ) 与 AI 结合,构建出一个一体化平台,来保证更高准确率和更强灵活性。" 我们的方案不是简单地将大模型和 RPA 拼接,而是构建了一个能够自我调整的智能系统," 胡一川解释道," 在传统 RPA 的基础上,我们增加了决策节点,允许系统在执行过程中根据实时情况进行判断和路径调整。"
来也科技数字员工平台架构图
例如,在某大型汽车主机厂的质检环节,来也科技的 Agent 能够自动识别并处理各类质检文档,当遇到异常情况时,系统会自动调用历史案例库进行比对分析,确定最佳处理方案。" 这一应用将质检文档处理时间从原来的 8 小时缩短至 1 小时,准确率提升至 99.2%,每年为客户节省人力成本超过 200 万元。" 胡一川补充道," 更重要的是,随着使用时间延长,系统能够不断学习新的异常模式,持续提升处理能力。"
中国企业在构建 Agent 时往往采取这种 " 由点及面 " 的策略:先在特定场景中解决核心痛点,然后逐步扩展功能范围。实在智能创始人孙林君描述了他们的方法:" 我们首先为制造业客户打造质检文档处理的专用 Agent,证明价值后,再逐步扩展到生产计划、物料管理等相关环节,最终形成覆盖整个生产管理链条的智能体系统。"
当积累了大量针对复杂场景的实战经验,具体场景中的 Agent 往往具有更强的环境适应能力和问题解决能力。
Agent 的另一种解法
硅谷的軟體生态已经高度成熟,MCP 等協定正在将这一生态重新连接,形成 Agent 主导的新格局。但这一趋势不可避免地将逐渐弱化传统軟體企业的地位,使軟體最终成为 Agent 的组件。
在美国,各軟體间的标准化接口已经成为基础设施,Agent 开发可以专注于调用这些接口。而在中国,Agent 企业必须直面軟體碎片化的现实,通过创新性的技术路径解决执行层问题。从某种意义上说,这反而催生了更加普适的技术方向。
" 我们看到一个根本性问题:传统的 Agent 执行层要么依赖 API 调用,要么依赖像素级的视觉模拟,两者都存在明显局限," 实在智能创始人孙林君解释道," 前者在中国企业軟體生态中成本很高且速度慢 ,后者则面临稳定性和泛化能力不足的挑战。"
那么,RPA 方案和视觉感知方案有没有可能融合在一起?实在智能创新性的尝试了 " 融合拾取技术 "。
" 我们训练了一个名为塔斯(TARS)的垂直大模型,专注于电腦操作领網域。这个模型提升了任务理解、状态识别和操作决策能力,本质上是一种‘ text-to-action ’或更精确地说是‘ text+image-to-action ’模型。例如,当看到一个有搜索框和按钮的界面时,模型能理解「搜索实在智能」这样的指令,确定需要在搜索框中输入文本并点击特定按钮,然后生成相应代码执行操作。"
" 我们训练的视觉模型可在 100-200 毫秒内识别界面中的各类元素(输入框、按钮、下拉菜单、表格、对话框、密码区網域等),然后将这些视觉识别结果与传统方式识别的底层元素整合。目前在网页元素识别和操作方面比 GPT-4o 高出约 10 个百分点,在任务拆解方面高出 4-5 个百分点,这项技术也获得国家优秀奖专利。" 孙林君补充道。
一般遇到未见过的軟體,都需要派工程师到客户现场进行适配。但现实中未见过的軟體可能是无穷无尽的,这种人工适配模式难以扩展。融合拾取突破了传统 Computer Vision 方案对螢幕分辨率和界面布局的依赖,提高了 Agent 在真实复杂环境中的适应能力。
除了技术创新外,在生态构建上也出现了新的机会。Agent 公司究竟应该以什么身份对企业进行服务?是传统軟體?定制化系统?还是 AI 技术提供商?商业模式是軟體付费模式、按 token 付费、还是以 " 数字员工 " 的形式按人头付费?
" 我们认识到一个现实:在 2B 领網域,尤其是传统行业,行业 know-how 的积累至关重要,但从 0 到 1 自己完成这一过程周期太长,很难满足当下市场的迫切需求,"AI Agent 智能体云生态服务平台汇智智能创始人孙志明表示," 因此我们选择了另一条路——成为行业知识与 AI 技术的整合者,将已经数字化的行业知识与 Agent 能力结合,打造 1+1 大于 2 的解决方案。"
这种模式的核心在于识别并整合已被数字化的行业知识。在制造业、医疗、金融等领網域,过去十年的信息化建设已经沉淀了大量专业知识,孙志明解释到," 例如,ERP 系统中的工艺流程、医疗系统中的诊断规则、金融系统中的风控模型,这些都是经过多年验证的行业智慧。我们不需要重新发明轮子,而是将这些知识提取、结构化,然后与大模型能力结合。我们与行业信息化服务商、垂直领網域咨询公司、以及专业数据提供商建立了深度合作关系,共同打造完整的智能解决方案。"
对于像澜码这样的创业公司,从 0 到 1 自主积累行业知识确实周期过长,对创企的考验也更加大,核心原因在于没有找准自己的定位,是技术提供者、知识整合者还是解决方案交付者,然后围绕这一定位构建合作生态。
相比之下,新的商业模式或许更加适合中国市场现状。在中国大型企业的数字化程度参差不齐,但几乎所有企业都有不同程度的信息化基础,在 Agent 驱动下,或许能重新定义軟體服务的形态和交付方式。
毕竟,技术发展从来不是单一直线,在这个过程中,中国企业和硅谷巨头都在用各自的方式,共同推动 Agent 走向成熟。