今天小编分享的科学经验:大模型心高气傲,没有AI Agents生死难料,欢迎阅读。
AI Agent,正在接棒大语言模型 LLM,成为 AI 圈最火的话题。
目前,AI 创投圈的众生相,大概是这样的:
大厂俱乐部:OpenAI 内部员工声称,AI Agent 是 OpenAI 的新方向;微软尝试推动 copilot,让 AI 以助理的角色落地,这是一种典型的 AI Agent 场景;英伟达推出了 Voyager,这个 AI Agent 可以自主写代码,独霸游戏《我的世界》;国內商汤也推出了通才 AI 智能体;阿里推出了数字员工……
学术圈:今年四月,斯坦福创建了一个西部世界小镇,让 25 个 AI Agents 在虚拟小镇的沙盒环境中模拟人类,与其他 AI Agents 恋爱、派对、协作、约会等。另外,也有学者开始利用 AI Agents 设计复杂科学实验,包括自动上网阅读论文、研究抗癌药物……这些前沿探索让人大开腦洞。
创业圈:AI Agent 并不只是顶级科学家的游戏,目前已经涌现出了 Camel、AutoGPT、BabyAGI、AgentGPT 等非常多的项目,并有一大批开源社区开发者和创业者,利用这些开源项目打造一些实用工具。比如 aomni,就是一个帮助用户抓取网络信息并邮件发送的 AI Agent 应用程式。
投资圈:AI Agent 被认为是 " 通往通用人工智能(AGI)时代的开始 ",其爆发是 " 铁板钉钉 ",有硅谷创业者表示,跟投资人聊到 Generative Agents ,大家都特别期待,并希望多了解、靠的更近,在后续爆发时反应更快。
从这些判断来说,说 "AI Agent 开启大模型下半场 ",还为时尚早,但 "AI Agent 是大模型的商业化标配 ",应该是清晰的了。
所以,接下来我们应该会看到,更多大厂和创业公司,都在 AI Agent 上有更多动作。
那么,AI Agent 究竟是什么?为什么说它是大模型商业化的必要条件?
大模型心高气傲
用户仍不买单
这里我们先把 AI Agent 放在一边,来看看大模型究竟是一个什么状况。
相信大多数读者都认可,大模型是一个高愿景、高投入、高门槛的东西,往情怀说,可能实现通用人工智能,彻底改变社会;往世俗说,可以重构业务 / 产品,让科技企业业绩狂飙。
但这些都有建立在,大模型能够真正商业化落地,回收研发成本,良性可持续发展的基础上。
几个月下来,大模型的两个商业模式,是比较有效的:一个是各类行业政企对大模型的私有化本地部署;一个是通过云、AI 伺服器等售卖大模型所需要的算力。
目前,已经有国內厂商发布了相应的业务报告,已经从行业私有化部署的需求中获得了千万级收入。
但是,仅靠 ToB 业务,显然不能支撑起一个大模型的商业模式。
一场技术革命,核心技术一定要流淌出去,让几十亿普通用户用起来,才能创造出经济价值。家用 PC、互联网、智能手机,都是在大众普及之后,诸多科技企业的市值一飞冲天。
现在,巨头们都为训大模型投入了大量资源,尤其是基础模型,动辄千亿、万亿的参数规模,必须让大众用户用起来。
那么,实际应用体验怎么样呢?
闲聊、画图、创意之类的场景容错率高,就算 AI 答错了用户还觉得 " 萌萌哒 ",这部分应用已经很卷了,比如 "AI 证件照 "。而绝大多数场景,都是需要 AI 来自动帮助自己处理较为严肃的任务,与其他环境条件进行协作,应对长线条、连续性的业务,不要出现太多错误,不然人还得大量参与,并不能真的提高生产力。
这类场景,显然目前,一个庞大且复杂的通用大模型,是不能很好地解决的。
就拿我这种撰稿来说,让大模型帮我写稿子,它可能有幻觉,提到的事件 / 新闻 / 论文我都得再次复查确认一下,比我自己找资料还费事,不够精准,想一个创意还得我用提示词启发半天,都不一定有能用的,又慢又累,还不如自己写。
不能一步到位,自动化地完成任务,需要大量人类参与干预 review,是目前大模型在严肃场景中应用的一大难点,也直接影响到了大模型落地和商业化的进展。
怎么办呢?大模型想要表现出色,急需一群帮手,那就是 AI Agents。
真 · 解放生产力
AI Agent 为什么神奇?
试想一下,如果大模型能自己全天 7*24 小时工作,还不需要人工参与,自己就能完成各种任务,人只要偶尔回到电腦前、办公室看看它做的咋样,这才是大模型的正确打开方式啊。
OpenAI 在 GPT-4 发布会上,确实也展现了一些自动化完成任务的能力,比如让 GPT4 识别草图生成网页,step by step 一步步修改自己代码中错误。
但是,这种能力怎么被开发者和普通用户用到呢?很多开发者都反应,直接使用 GPT4 写代码还是得自己 debug,并不能看图生成直接用的代码,有时候不如不用。
大模型厂商也为难啊,我已经开放了 API,要更专业精准精细化的能力,还得有人来进一步开发,这就把接力棒交给了 AI Agent。
AI Agent(智能体),是 AI 在环境中的自动化实体,有四个核心特征:
1. 通过传感器感知周围的环境。这个环境,既可以是虚拟的,比如沙盒游戏、模拟训练系统、自动驾驶模拟器等,也可以是物理的,比如马路、房间、流水线等。
2. 可以自主做出决定。
3. 由执行器 / 效应器一起来采取行动。
4. 基于绩效最大化和结果最优化来学习进步。
从这个角度看,其实人类自己也是一种 " 智能代理 "AI Agent,我们可以通过眼睛、耳朵、皮肤等感知外界环境的变化,再通过大腦做出决策,用嘴说、用腿走来做出行动,并且根据奖励反馈来不断调整适应外界环境。
其实,Agents in AI 也是一样的逻辑。就拿自动驾驶场景的 AI Agent 来说,就需要传感器来采集信息,感知道路车辆行人等环境因素,再由系统自动决策,驱动油门、制动器等设备做出相应的反应。
这也被称为 AI Agent 的 PEAS 模型。我们给大家简单做个表,感受一下:
那么,具体在大模型上,AI Agent 可以带来什么影响了?主要有以下几个关键的作用:
第一,拆解任务。
大模型要和某个具体领網域结合,面对的用户需求是比较笼统的,过程往往会涉及到多个步骤。就好比用户说 " 要有光 ",孤立的大模型既不知道所在的环境有什么灯具,也不知道怎么控制,所以有了大模型也不能搞定这个看似简单其实复杂的任务。
而 AI Agent 具有任务规划能力,可以自动理解并决定,如何规划步骤、分配资源、优化决策,进而完成指令,提升了大模型处理任务的效率和精度。
谷歌大腦研究团队的一篇论文中,就让大语言模型把任务步骤分解的推理过程,也就是 " 内心独白 " 都说出来,再去做相应的动作,一下子就提高了大模型答案的准确性,在多个数据集上都取得了 SOTA 效果,让大模型胡说八道的情况有所改善。
第二,自动执行。
AI Agent 被设计为独立思考和行动,用户只需要给它一个任务,让它做事就可以了。AutoGPT 的典型案例就是点披萨,不需要用户自己输入地址、选择口味,AI Agent 将所有点餐步骤都大包大揽,自动执行,人在一边看着,发现出错及时纠正就好了。
AI Agent 不止能使用互联网,还可以在物理环境中工作,控制机器人拿快递、无人车、自动驾驶等。
有了 AI Agent,用户和大模型之间的互動,会更加自然、简单、快速,减少人工参与,真正提质增效。比如游戏世界中,AI Agent 可以自动跟玩家展开对话,提供开放式的互動,根据玩家的反馈来设计无限故事线,真正让游戏做到千人千面;物理世界中,AI Agent 自动生成指令和操作,驱动机械身体,为人类提供家政服务,在工厂里自动化作业,不依赖人类的指导就能完成。
第三,节约资源。
AI Agent 像人一样,能够使用工具,也就是调用 API,来处理更加复杂的任务,这就很好地扩展了大模型的能力,减少了对资源的浪费和过度消耗。
比如 AutoGPT 写代码,要对专有信息源数据、算力资源等进行访问,这个过程中 AI Agent 可以自动找到合适的 API 来进行调用,这样就可以避免浪费其他 API token。还能够自主学习,对结果进行优化,如果不满意就重新调用 API。
一般来说,要真正完成一项不明确的用户指令,比如旅行规划,需要模型调用多个 API 才能解决问题,自动化强的 AI Agent 无疑能够很好地节省资源,进而为用户节省成本,让 AI 应用更有吸引力和竞争力。
第四,吸引开发者。
对大模型的商业化来说,API 模式需要尽可能多的开发者群体参与,行业模式也需要 ISV 集成商、軟體服务商等。大家都知道,和大厂卷基础模型是很难有胜算的,更希望在细分的上层应用上找到机会。而 AI Agent 能够解决具体问题、提高模型效果,驱动数字系统和物理实体,就非常适合来构建超级应用。
如果说 AI Agent 就像是一个最小部門的 AI 生命,那么大模型厂商就是孕育生命的工厂,而开发者、軟體商等就像是技能培训班,教会它们一些实用而有差别的技能,到行业和用户身边努力工作。
所以,哪个大模型能够更好地构建 AI Agent,能吸引的开发生态就会更庞大,对商业 B 端用户的粘性更强,形成一个 AI 平台级的巨大机会。
总结一下,AI Agent 直接影响到大模型的模型效果、服务质量、落地成本、生态能力,将是接下来各个大模型的竞争关键。
AI Agent 做得好
模型少不了
那你可能会问了,那怎么才能产生好的 AI Agent 呢?这对大模型提出了哪些挑战?
我们认为,AI Agent 想要落地,需要大模型做好以下工作,这也是接下来的竞争焦点:
1. 基础模型。
AI Agent 的能力和效果,是由底层基础模型的能力决定的。基础模型有的能力,AI Agent 不一定能用上,但基础模型没有的能力,AI Agent 一定没有。
就拿语言任务来说,GPT-4 提供了很强的自然语言理解能力,但目前真正部署到 AI Agent 和产品中的很少,一些游戏中的智能体 NPC 还是没有自主决策的行为能力的。
再比如,GPT-4 虽然有多模态,但只开放了语言 API,所以开发者想要用 GPT4 的多模态能力来构建 AI Agent,还做不到,而缺失了影像、音频等其他模态的信息,AI Agent 对环境的理解和效果还有待提升。
所以,无论是开源模型,还是闭源模型,想要通过 API 经济来商业化,基础模型的能力会直接关系到 AI Agent 的质量,且都还有提升的空间。
2. 数据知识。
想要做好一个 AI Agent,采集和使用数据是基本前提。对于开发者来说,数字任务的数据量已经不成问题,但开发物理世界的 AI Agent,数据成本就非常高了。机器人的控制数据,一般只能自己采集,通过模拟器或者实体机器人现场采集。但模拟器毕竟不是真实的环境,训练的效果不一定好,而购买几百台机器人、无人机真正上路进厂去收集数据,无论是采购成本、政策限制、实际执行等,都有不小的困难。
这一点上,拥有数据优势的大模型厂商,比如谷歌、百度的自动驾驶优势,微软、谷歌、搜狗、百度等搜索业务的数据优势,或许能够为开发者的 AI Agents 探索减少一些门槛,也会为这些厂商的大模型建立壁垒。
3. 产品支持。
必须承认,AI Agent 所代表的大模型应用机会,还只是非常早期,技术上尚未完全成熟,商业化探索更是刚刚迈出了一点点步伐。对于开发者、軟體服务商等来说,比起代码上怎么实现 AI Agent,更关键也更早一步要考虑的,是想象一个 AI Agent 所应该的去向:
它应该是什么样子?叫什么名字?有性别吗?以什么性格跟用户对话?有哪些用例?会遇到哪些具体的困难?如何评价一个 AI Agent 的成功?
这些更多是产品层面、商业层面的 " 无人区 ",要让开发者释放想象力,在各种环境和任务中尝试创建 AI Agents,需要大模型厂商开放自身的商业生态和更丰富便捷的功能,来减少开发人员的试错风险,增加与商业用户对接的强度,去催生更多商业选择和落地案例。
总而言之,这个领網域仍然很新,目前 AI Agent 还没有明确给大模型产业带来冲击,但 AI Agent 会消除人与 AI 系统的大量繁琐互動已经板上钉钉,正在发生。
更多 AI Agents 在被推向社区、推向用户,它们学习,它们改变,它们进化。或许几个月之后,我们就会看到 AI Agents 的成熟和爆发,这必然会引发大模型领網域的又一次洗牌。
>