今天小编分享的科学经验:三个大模型组队挑战o1,实测360多模型协作干掉提示词工程,欢迎阅读。
OpenAI o1 的横空出世,开启了大模型演化的新范式——Inference law(推理定律)。
正如英伟达 AI 科学家Jim Fan所说,o1 的出现标志着大模型研发者开始把集中在训练阶段的投入,开始转移到了推理过程。
Jim 还引用了机器学习先驱Rich Sutton的经典文章《苦涩的教训》中的话说,只有两种技术可以让(AI)计算的潜能无限扩展——学习和搜索。
而现在,是时候把目光聚焦在后者了。
在推理侧投入更多资源,模型也就有了更完备的思考过程,投入的增加换来的是质的提升。
在国内,360 创始人周鸿祎的理念与之不谋而合,而且 360 更早就提出了 " 慢思考 " 的理念,并在技术架构和产品中都付诸了应用。
同时,360 还在其 AI 产品中强调多模合作,让来自不同厂商的大模型 " 抱团取暖 ",为国内模型追赶 OpenAI,找到了一条可行的道路。
从 o1 看大模型 " 慢思考 "
虽然 o1 的具体思考过程始终是 OpenAI 的至高机密,但可以肯定的是,思维链(Chain of Thought, CoT)在其中扮演了重要角色。
OpenAI 在关于 o1 的报告中表示,思维链能让模型学会认识并纠正错误,学会将棘手的步骤分解为更简单的步骤,甚至学会尝试不同方法,极大地提高了模型的推理能力。
今年的 AI 顶会 ICLR 上,谷歌大腦推理团队创建者Denny Zhou,清华姚班校友、斯坦福助理教授、斯隆奖得主马腾宇等人的一篇论文,更是揭开了思维链的无限潜能。
透过现象看本质,从某种程度上看,思维链的本质就是 2002 年诺贝尔经济学奖得主卡尼曼在《思考快与慢》中提出的 " 系统 2",也就是" 慢思考 " 系统。
所谓 " 系统 2" 或 " 慢思考 ",是指复杂、有意识的推理,与之相对的是 " 系统 1" 或 " 快思考 ",即简单无意识的直觉。
而 o1 的表现证明,这种适用于人类的 " 慢思考 " 理念,对大模型来说同样适用。
但应当注意的是,这两种系统在人腦中是同时存在、相互配合的,在大模型当中也不应被割裂开来。
周鸿祎认为,o1 遵循的可能就是 "双系统理论(Dual Process Theory)",其核心在于快慢两种系统的协同运作。
作为 " 百模大战 " 的选手,周鸿祎和 360,也是 " 慢思考 " 以及 " 多系统协同 " 的思考者和先行者。
7 月底的 ISC.AI 大会上,周鸿祎就宣布,要 " 打造慢思考系统,从而增强大模型的慢思考能力 "。
基于 " 多系统协同 " 机制,360 利用多个模型组成的智能体框架,实现了大模型从 " 快思考 " 到 " 慢思考 " 的转变,并打造出了两款明星 AI 产品——360AI 搜索和360AI 浏览器。
让不同大模型 " 抱团取暖 "
360AI 搜索一共有简洁回答、标准回答和深入回答三种模式,其中一次深入回答会可能就要涉及7-15 次的大模型调用。
比如可能会涉及 1 次意图识别模型调用,1 次搜索词改写模型调用,5 次搜索调用,1 次网页排序调用,1 次生成主回答调用,1 次生成追问调用……
在多个模型的协同配合下,360AI 搜索形成了这样的工作链路:
首先利用意图分类模型,对用户的问题进行意图识别;
接着用任务路由模型对问题进行拆解,不同的问题可以划抽成 " 简单任务 "、" 多步任务 " 和 " 复杂任务 ",对多个模型进行调度;
最后构建 AI 工作流,使多个大模型协同运作。
比如面对一道古诗词中译英题目,路由模块就会调用起翻译、反思等多个模型,让这些模型分工配合、共同完成任务。
而且最新版本还在生成答案过程中进一步加强了多模型协作,将其作为了一种独立的回答模式。
三个不同模型分别扮演生成初步答案的专家、检查回答的反思者和最终给出答案的总结者。
例如在这个案例中,作为专家的Kimi提到了问题的关键,但表述不够鲜明,在反思模型360 智腦的建议下,豆包进行了重新总结,形成了直击问题的解答。
这样的工作模式不仅将快慢思考协同和反思机制引入了 AI 应用,更通过不同模型的交叉验证,进一步提高了整体表现。
在另一款 AI 产品—— 360AI 浏览器当中,16 家厂商的 54 款大模型也已齐聚一堂,可以实现多种传统浏览器所不具备的能力。
AI 浏览器可以10 秒钟总结上万字英文学术论文,针对其中的细节也可以尽情发问。
可以沉浸式翻译 pdf 文档,原文和译文同步滚动、随时对照。
还能化身 "AI 省流侠 ",分分钟帮忙总结在线视频内容并划出重点,还能根据视频架构绘制腦图,甚至分析创作风格……
不仅在线文档和视频可以解析,这一系列分析功能,对于本地檔案也同样适用。
更为方便的是,360AI 浏览器还有移动端版本,在手机上也能随时利用 AI 辅助上网冲浪。
已经入驻 360AI 浏览器、同样基于 CoE 架构的AI 助手(bot.360.com),则可根据任务类型和模型特长自动调度最合适的大模型。
无需切换平台,就能直接对话 54 款大模型,或者对话更加强大混合大模型,想选哪个就选哪个。
AI 助手同样支持「多模型协作」,用户可以从 54 款模型中任选 3 款,分别做专家、反思者和总结者。
未来,360 还会推出由五个甚至更多模型协作完成任务的版本。
还是在 360AI 浏览器中,AI 助手还上线了" 模型竞技场 " (bot.360.com),支持 54 款大模型产品的 " 同台竞技 ",最新版本中还上线了 " 组队较量 "、" 匿名比拼 "、" 随机对战 " 等功能。
总的来说,360AI 搜索还是 360AI 浏览器虽然侧重点有所不同,但背后体现的还是那个核心理念——
在进行 " 慢思考 " 的同时,不卷单一模型的能力,而是让模型 " 抱团取暖 ",博采众长,形成 " 众人拾柴火焰高 " 的局面。
当然,这样做的意义,也不仅仅是为用户带来了更好的 AI 体验,对各大模型的开发者而言同样是一种激励。
我们知道,大模型研发投入巨大,唯有足够多的用户才能够收回成本。
而依托 360AI 搜索、浏览器、安全卫士等入口,360 将能够触达 10 亿用户的入口开放给了大模型开发者。
这也是阿里、腾讯、百度等大厂,以及大模型六小虎纷纷加入 360AI 架构的重要原因。
所以,360 与这十多家厂商双向奔赴,实现了模型与 AI 应用相互促进、彼此发展的良性循环。
模型竞技场更是给国产大模型提供了一个在竞争中学习的平台,以及获得用户评价的绝佳机会,塑造了更加积极进取的氛围。
" 消灭 "Prompt 工程
从技术层面上看,在理念与产品之间架起桥梁的,是 360 独创的 CoE(Collaboration-of-Experts,专家协同)架构。
CoE 架构集合了数量更多的大模型和专家模型,通过思维链和 " 多系统协同 " 的方式实现了 " 快思考 " 和 " 慢思考 " 的有机结合。
在思路上,CoE 与 o1 选择了相近的路线,但是在深度上走得更远——
o1 无论再怎么融合,也无外乎是 OpenAI 的自家模型,CoE 却是海纳百川,集合了数量更多的大模型和专家模型。
△CoE 架构原理图
而且,CoE 架构中还接入了很多十亿甚至更小参数的专家模型,使得整个系统更加智能,在获得高质量回答的同时,节约推理资源、提升响应速度。
早在 CoE 架构刚发布的时候,基于 CoE 集各家所长的混合大模型能力就超过了(当时最强的)GPT-4o。
该混合大模型在翻译、写作等 12 项指标的测试中取得了 80.49 分的综合成绩,超越了 GPT-4o 的 69.22 分;而且除了代码以外,其余 11 项指标均优于 GPT-4o。
而且 CoE 架构对所有模型都敞开怀抱,比 OpenAI 在开放协作的道路上走的更远……
另外,无论是 OpenAI 的 o1,还是 360 的 CoE,都将让大模型的发展走向一个新的趋势——
复杂的人工环节将实现自动化,具体到大模型当中,就是" 消灭 "Prompt 工程。
乍一看有些反直觉,因为在我们使用大模型时,提示词的好坏对生成内容有着决定性的影响,其重要性不言而喻。
但仔细想想又并不矛盾——大模型等 AI 应用,归根结底是要为了人类而服务;
而提示工程却是让人类去适应模型的工作方式,简直 " 倒反天罡 "。
所以,提示工程固然重要,但不该成为普通用户使用大模型的 " 绊脚石 "。
解决的思路就是将提示词的设计工作,像其他任务一样,作为思维链中的一环,交给大模型来做。
这样的模式下,提示工程的灵魂依然被保留,但在用户的视野当中逐渐淡化,形成一种 " 消亡 " 的感观。
这种模式背后所反映的,也是 360 对 AI 未来发展的一点期许——
实现 AI 向着更多人的普惠,让大模型不再 " 高居庙堂 ",而是成为万家灯火。
— 完 —
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
>