大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科技

大模型战争:智能体成关键,刷榜风光不在

2024-12-10 简体 HK SG TW

今天小编分享的科技经验:大模型战争:智能体成关键,刷榜风光不在,欢迎阅读。

2025 年被认为将是智能体(Agent)落地元年,客户更看重智能体的效果,生态各方为此已在摩拳擦掌。‍‍‍‍

文|赵艳秋 周享玥‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

‍‍‍‍‍‍‍‍‍

编|牛慧‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

智能体采购,正在成为市场热点。

" 如果说 2023 年项目得標主要围绕智算中心、模型中台建设,那么从今年下半年起,众多客户的招标内容全都转向应用,且越来越细分。" 众数信科联合创始人汪中告诉数智前线,智能体开始走上台前。

智能体已成为客户、大模型企业以及各类服务商关注的核心故事。甚至一家企业能把智能体做好,就能越过大厂,成功得標。

对于大模型企业而言,智能体技术及工具链的支撑能力已成为基本要求。若在这方面表现欠佳,大概率难以与其他模型竞争。单纯靠刷榜体现的优势,如今已很难得到客户认可。

不过,业界对于智能体的定义、涵盖的具体内容,尚未达成共识。有人认为 OpenAI 推出的 GPTs 是智能体;也有人认为,只有能调用工具的才算是智能体。从形式上说,不管对话机器人还是各种形式的大模型应用,从广义上都属于智能体范畴。

但有一点是业界公认的,那就是智能体必须能切实解决业务问题,至少在降本增效方面要有 10 倍、20 倍的提升,才能获得客户认可。因为业界越发意识到,大模型模式更难实现商业闭环,单纯的烧钱模式基本难以为继。

而业界这种认知,不仅重构了軟體架构,甚至在促使大模型生态企业重塑了商业模式。正如王坚博士所说,AI 不应被视为工具的革命,而应被当作革命的工具。

01

" 客户要求 10 倍 ~20 倍效果 "

" 你说电商直播数字人好,那你就帮我卖东西。一单二三十元,我分你两元。" 从事生成式 AI 虚拟人研发的中科深智 CTO 宋健告诉数智前线。在电商领網域,今年客户在购买工具时变得格外谨慎,他们更倾向于按照效果付费,采用分润或 CPS(按销售付费)模式。宋健预测,到明年,他们的直播电商数字人客户可能 100% 都会采用这种模式。

" 国内外智能体存在很大差异。国外可能仍类似于传统 SaaS 模式,只是利用智能体重构了以往的軟體架构。" 宋健表示,国内的情况则更为激进一些,在一些竞争激烈的行业,比如电商领網域,不仅重构了軟體架构,还重塑了商业模式。

这是因为客户关注的是智能体能否切实解决问题。"无论是降低成本还是提高效率,综合起来至少要有 10 倍、20 倍的提升才行。" 宋健进一步解释道。

"客户现在对大模型技术已经祛魅了。" 众数信科汪中向数智前线坦言,这些客户从之前单纯的基础性采购,转变为以应用效果为导向,要求智能体在降本、提效或拓展新业务方面创造价值。

" 客户不关心你是怎么实现的,只要看效果。" 汪中说。目前行业内的采购模式通常是,技术厂商先迅速为客户进行一个 PoC(概念验证)场景验证,虽然语料范围可能较小,互動形式也较为单一,但要证明能够完成客户场景中的业务逻辑,并运用客户专属的业务知识。之后,客户才会启动采购流程。当然,他们也愿意为这些创新投入一定成本。

众数信科最近做的一个 PoC 是气象部门的紧急预警方案助手。厦门每年都会遭受台风侵袭,气象部门预测后,需要向港务局、城管等多个部门发送应急通知。这些应急报告原来需要 4 个专家花费 3 个小时才能完成。PoC 的演示效果显示,借助助手,只需 1 位专家 1 小时就能完成,效率大约提升了 12 倍。

在另一个案例中,原本无法实现的事情,现在成为了可能。在高校学生培养计划中,存在大量评测维度。如果依靠现有的编程技术,针对上万乃至数万学生,只能进行一些通用评测,很难实现个性化定制。在这个案例中,针对课堂环节,多个智能体协同合作,实现了创新。例如,有的智能体负责转录授课语音,有的进行授课水平的分析对比;有的生成随堂小测试卷,有的现场批改试卷;还有的针对每个学生的薄弱点,进一步推荐学习材料…… 因此,在学生评价系统中,新增了多个评测维度。

" 每一步背后都有智能体的支撑。" 汪中总结道,随着基础模型能力的发展,智能体的能力和形态更为丰富,已经初步具备协同的基础。汪中说,他们在实践中认识到,每个智能体都要扮演一个人类的社会角色,进行社会化分工并有产出,进而有可能形成群体智慧。智能体不再是单一的工具,未来也不仅仅是单个超级智能体的出现。

为了达到这样的状态,智能体需要具备三个主要特征:能够进行交流和理解;依据反馈和结果进行反思和自我规划;与外部能力单元,如业务系统、其他智能体、工具级应用等进行互动和协同。

在智能体落地应用过程中,客户从购买产品向购买服务的转变趋势愈发显著。智能体与以往信息技术的不同之处在于,它需要持续优化和调整,而目前客户完全依靠自身力量实现这一点,还存在难度。汪中发现,以规模在 200 万元左右的项目为例,后续每年服务费的占比已从传统信息化项目的 10%~15% 提升到 25%~30%。

而在竞争更为激烈的电商领網域,变化更是翻天覆地。宋健注意到,电商直播数字人的迭代速度已经以天计。一旦从销售工具转变为提供服务,涉及的环节会变得极为繁杂。例如,需要密切关注平台的各种规则及其调整变化;之前那种研发、产品和业务相互分离的模式已经行不通了,现在必须协同作战,技术人员要深入一线,每天查看数据、分析运营情况,进行优化迭代;当优化措施不再奏效时,要果断更换产品、调整客户群体。"CPS 模式的优势就在于,各方更容易达成共识。"

02  

生态全都动起来了

在智能体的落地巨变中,虽然大厂仍是当下的主要推动者,但人们认为,由于智能体更看重对客户需求的响应,未来行业智能体的产出来源主要将是两类玩家:

一类是有 AI 原生能力的服务商。另一类则是行业传统信息化服务商。智能体的落地并非易事,核心技能有业务场景遴选、知识萃取、智能体训练和编排。如果不了解业务场景以及大模型的能力边界,那么在技术响应、经验和效率上就会非常低。这需要人工智能人士和业务人士的双向奔赴。

而大厂在这一过程中,将扮演生态链普及角色。百度、阿里、字节、腾讯等大厂均推出了一站式智能体开发平台。他们走的是标准路线,目的是降低智能体落地门槛、应用广度和深度。比如,无论百度、智谱还是浪潮云,最近发布的新品,都在关注用智能体接管手机等设备的能力,实现一些拟人化操作。

"大家目前都在基于自身大模型,构建整体的智能体生态。"IDC 中国高级分析师杨雯告诉数智前线,差异在于各家应用场景、数据积累不同,发力的优先场景和方向选择也有所不同。业界观察,这些企业在智能体支撑策略上差异也较大:

业界反馈,百度生态布局上覆盖较全,有基础模型,APP builder、Agent builder 平台,也有对应的硬體如一体机,可直接在客户机房中部署。百度也支撑联合方案开发,定制化产品适配。业界分析,这与李彦宏号召业界不卷模型、卷应用有关。

一些人士建议,千帆平台可以加强除文心之外的商业化模型纳管,并支持更多常见互联网服务的插件开发。

在智能体方面,今年 11 月,百度推出工具流 Agent。"Agent 去年一出来特别火,但很快一盆冷水泼下来,大家发现很难用起来。我们的客户里,90% 是 RAG,10% 是 Agent。" 千帆 AppBuilder 产品负责人朱广翔告诉数智前线。因为要完成一个企业级任务,可能需要几步甚至更多,如果每一步准确率是 95%,多步骤下来,衰减将非常快。它没办法支撑长思考和推理。采用工作流方式,专家把流程描述好,Agent 就会稳定很多,会更加落地。

阿里的通义千问模型能力在国内较强、反馈好,其开源模型在业界应用较多。阿里更多通过云端形态支撑应用,私有化支撑较少。这可能与阿里云的 "AI 驱动、公共云优先 " 战略有关。在智能体产品方面,阿里通义实验室新推出了自适应规划的多模态检索智能体OmniSearch,能模拟人类,将复杂问题逐步拆解进行智能检索规划。

字节目前在大力推广扣子私有化部署产品,即今年 8 月推出的 HiAgent 企业专属 AI 应用创新平台。与年初打响大模型价格战异曲同工,这次仍通过价格战,抢占市场。不过,它目前还不搭配模型,即字节豆包模型还没有私有化;不做应用,没有硬體,尝试基于 HiAgent 平台教会客户去搭建 Agent 应用。它的打法和支撑条件还有待体系化,这与其刚刚启动大模型私有化业务线不无关系。

而腾讯在智能体上的布局,也和其在大模型落地上优先赋能自身产品矩阵的 " 全家桶 " 策略类似,更加关注与自身拥有庞大流量的自家产品的结合。比如今年 9 月,腾讯元器上线的新功能,就支持公众号运营者自主打造专属智能体应用,在公众号内提供陪伴、互动、答疑、知识交流等智能化功能,目的是提升用户体验和公私網域运营效率。

除了大厂,"AI 六小虎 " 的智谱 AI 最近不断更新智能体技术。智谱的优势在于科研能力较强,一些开发者反馈,其模型的某些性能,超过了通义千问。但目前生态方面的支持还有待加强。

在前不久召开的智谱 Agent OpenDay 上,智谱 CEO 张鹏表示,Agent 可以看作是大模型通用作業系統的雏形,理论上,可以将其推广到手机端、PC 端、车端等各类智能设备上,实现基于大模型的互联互通。

" 将来的智能体,一定是跨系统操作的,这是 0 跟 1 的区别,而不是 60 分和 70 分的区别。" 一位资深行业人士观察,跨系统、跨 App 的能力,目前已成为兵家必争之地。

中国电信在今年 9 月开始智能体平台的开发,近期展出了星辰智能体应用平台。中国电信相关人士告诉数智前线,目前针对政企的标杆项目正在打造之中。

虽然大厂动作不断,但业界期望他们支撑智能体的速度要更快。" 目前的速度无法跟上广泛的客户需求。更多业务逻辑没有充分体现,也就是客户专属知识与大模型技术的结合问题,这也是业界在落地上非常关注的。这侧面说明,大模型企业向客户方向靠拢,尚需一个过程。

03

智能体,何时爆发?

智能体的大方向已成,但何时能够真正爆发?

多位行业人士均向数智前线表示,这很大程度取决于模型能力的发展及市场教育进程。

" 我们有一个简单判断,GPT5 什么时候能出来,会是一个很直观的对标时间点。" 众数信科联合创始人汪中说。

智谱 AutoGLM 技术负责人刘潇也告诉数智前线,去年智能体还只能满足用户 10%-20% 的预期,用户就不太愿意买账,今年达到了 50%-60%,一些用户开始意识到这件事情有用,而当智能体能满足用户 70%-80% 的预期时,应用铺开的速度将非常快。他判断大模型能力达标大概还需半年。

中科深智 CTO 宋健则表达了不一样的观点。他认为,Agent 要真正爆发,必须真的渗透到行业里头,但 To b 链条的爆发,"明年应该还到不了特别大的规模"。

IDC 中国高级分析师杨雯也告诉数智前线,于 B 端来说,若无法彻底解决大模型的幻觉问题,达到 100% 的精准度,大规模应用仍然难以实现。智能体爆发,预计可能要 1 至 1.5 年时间。

" 目前而言,智能体仍处于市场混战阶段,距离成为终极入口标准还有一定的路程。" 杨雯说。

但不可否认的是,面向这一确定的方向,处在智能体爆发前夕的玩家们,无一例外,都在通过各种工程化的能力和一系列技术,弥补模型能力不足,提前抢占先机。

" 我们测试过大量基础模型,它们的 Function Call 能力在 10 个工具里去选,还是比较准的,一旦超过 10 个,准确度就大幅衰减,但在实际的应用场景中,执行步骤大概率都超过了 10 个,为了更好的实现业务可控性,我们首创了基于状态机的智能体 workflow(工作流),在保证智能体自规划、自治性能力不受影响的前提下,实现业务的精准可控。" 汪中说。

智谱刘潇也透露,他们正通过更好的强化学习策略,让智能体能够执行更长的步骤操作。

业界目前也都在研究工作流。"正因为有了工作流,我们发现虽然只增加了一层,但是 Agent 的落地增长就非常快,能看到很快到两成。" 百度朱广翔说,预测明后两年,Agent 会逐渐超过 RAG 应用,因为 RAG 场景较少,只是问答;但 Agent 可以实现客服、营销、企业调度、一站式平台,天花板更高。

有行业人士认为,智能体的应用可以至少分为从低到高三个应用层级,目前市场上已经出现不少初级应用和中级应用,高级应用则还需进一步实现。

比如豆包、kimi、文小言等,被认为可以看作是最为初级的智能体。它们具备简单的语言互動和任务理解能力,听得懂人话,能够根据指令,去执行一些简单的操作。" 目前绝大多数的智能体是单智能体的初级应用,包括很多 GPTs,能够简单的做问答等任务执行。"IDC 杨雯说。

中级应用还要更深一层,展现形式已经脱离单纯的 Chatbot 形态,不再仅仅是对话框模式,规划能力和复杂度也进一步提升,使用的工具不再是联网搜索、天气查询等简单插件,而是需要有对应场景内的专业插件和能力,能完成更复杂的场景任务。

" 比如智能客服,就是非常典型的一个 Agent 应用,比以前可能会有 10 倍甚至 20 倍的一个变化,现在我们接到的很多电话,其实都是新的 Agent 打出来的,你跟它聊半天,可能还以为它是个真人。" 宋健说,而且,与传统客服相比,軟體设计也变得更加简便。

" 第三个级别,也是我们现在在努力去实现的。它除了更丰富的互動形态,能够完成复杂任务,还会额外再增加两个标签。" 汪中告诉数智前线。

其一是能够了解场景背后的业务逻辑和知识脉络。" 它可能不再那么通用,但它的专业性更强。而如果没有,它还会主动去寻求这些行业知识的支撑。"

其二,从插件和工具的使用能力上来说,它能够读懂现有的业务系统,将现有的业务系统作为其能力插件来源的一部分,而不再只能使用为它定制的插件。

汪中举例说,他们正在与船舶货运公司进行港务调度助手的研发试点,在他看来就是一种高级应用。

一艘船靠岸后,往往需要进行卸货、转运、洗舱、船员登记、物资补给等大量工作,原来这些工作主要靠人工去安排和调度,再登记进入车辆管理系统、补给管理系统等对应的若干个系统里,给到对应的执行部門执行。而现在,客户提出,希望用 AI 智能体来帮助现场员工,在繁杂的信息流和工作流中,由智能体进行初步的信息收集、分析、业务建议,成为现场员工的 " 数字同事 "。

当然,更高级的应用,仍然有赖于模型能力和工程化能力的提升。

ZXY19980209ZXY 或   a36942587)

© 本文为数智前线(szqx1991)原创内容

进群、转载或商务合作联系后台

文章精选

>
熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們