大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

三个大模型组队挑战o1,实测360多模型协作干掉提示词工程

2024-09-21 简体 HK SG TW

今天小编分享的科学经验:三个大模型组队挑战o1,实测360多模型协作干掉提示词工程,欢迎阅读。

OpenAI o1 的横空出世,开启了大模型演化的新范式——Inference law(推理定律)。

正如英伟达 AI 科学家Jim Fan所说,o1 的出现标志着大模型研发者开始把集中在训练阶段的投入,开始转移到了推理过程。

Jim 还引用了机器学习先驱Rich Sutton的经典文章《苦涩的教训》中的话说,只有两种技术可以让(AI)计算的潜能无限扩展——学习和搜索。

而现在,是时候把目光聚焦在后者了。

在推理侧投入更多资源,模型也就有了更完备的思考过程,投入的增加换来的是质的提升。

在国内,360 创始人周鸿祎的理念与之不谋而合,而且 360 更早就提出了 " 慢思考 " 的理念,并在技术架构和产品中都付诸了应用。

同时,360 还在其 AI 产品中强调多模合作,让来自不同厂商的大模型 " 抱团取暖 ",为国内模型追赶 OpenAI,找到了一条可行的道路。

从 o1 看大模型 " 慢思考 "

虽然 o1 的具体思考过程始终是 OpenAI 的至高机密,但可以肯定的是,思维链(Chain of Thought, CoT)在其中扮演了重要角色。

OpenAI 在关于 o1 的报告中表示,思维链能让模型学会认识并纠正错误,学会将棘手的步骤分解为更简单的步骤,甚至学会尝试不同方法,极大地提高了模型的推理能力。

今年的 AI 顶会 ICLR 上,谷歌大腦推理团队创建者Denny Zhou,清华姚班校友、斯坦福助理教授、斯隆奖得主马腾宇等人的一篇论文,更是揭开了思维链的无限潜能。

透过现象看本质,从某种程度上看,思维链的本质就是 2002 年诺贝尔经济学奖得主卡尼曼在《思考快与慢》中提出的 " 系统 2",也就是" 慢思考 " 系统。

所谓 " 系统 2" 或 " 慢思考 ",是指复杂、有意识的推理,与之相对的是 " 系统 1" 或 " 快思考 ",即简单无意识的直觉。

而 o1 的表现证明,这种适用于人类的 " 慢思考 " 理念,对大模型来说同样适用。

但应当注意的是,这两种系统在人腦中是同时存在、相互配合的,在大模型当中也不应被割裂开来。

周鸿祎认为,o1 遵循的可能就是 "双系统理论(Dual Process Theory)",其核心在于快慢两种系统的协同运作。

作为 " 百模大战 " 的选手,周鸿祎和 360,也是 " 慢思考 " 以及 " 多系统协同 " 的思考者和先行者。

7 月底的 ISC.AI 大会上,周鸿祎就宣布,要 " 打造慢思考系统,从而增强大模型的慢思考能力 "。

基于 " 多系统协同 " 机制,360 利用多个模型组成的智能体框架,实现了大模型从 " 快思考 " 到 " 慢思考 " 的转变,并打造出了两款明星 AI 产品——360AI 搜索和360AI 浏览器。

让不同大模型 " 抱团取暖 "

360AI 搜索一共有简洁回答、标准回答和深入回答三种模式,其中一次深入回答会可能就要涉及7-15 次的大模型调用。

比如可能会涉及 1 次意图识别模型调用,1 次搜索词改写模型调用,5 次搜索调用,1 次网页排序调用,1 次生成主回答调用,1 次生成追问调用……

在多个模型的协同配合下,360AI 搜索形成了这样的工作链路:

首先利用意图分类模型,对用户的问题进行意图识别;

接着用任务路由模型对问题进行拆解,不同的问题可以划抽成 " 简单任务 "、" 多步任务 " 和 " 复杂任务 ",对多个模型进行调度;

最后构建 AI 工作流,使多个大模型协同运作。

比如面对一道古诗词中译英题目,路由模块就会调用起翻译、反思等多个模型,让这些模型分工配合、共同完成任务。

而且最新版本还在生成答案过程中进一步加强了多模型协作,将其作为了一种独立的回答模式。

三个不同模型分别扮演生成初步答案的专家、检查回答的反思者和最终给出答案的总结者。

例如在这个案例中,作为专家的Kimi提到了问题的关键,但表述不够鲜明,在反思模型360 智腦的建议下,豆包进行了重新总结,形成了直击问题的解答。

这样的工作模式不仅将快慢思考协同和反思机制引入了 AI 应用,更通过不同模型的交叉验证,进一步提高了整体表现。

在另一款 AI 产品—— 360AI 浏览器当中,16 家厂商的 54 款大模型也已齐聚一堂,可以实现多种传统浏览器所不具备的能力。

AI 浏览器可以10 秒钟总结上万字英文学术论文,针对其中的细节也可以尽情发问。

可以沉浸式翻译 pdf 文档,原文和译文同步滚动、随时对照。

还能化身 "AI 省流侠 ",分分钟帮忙总结在线视频内容并划出重点,还能根据视频架构绘制腦图,甚至分析创作风格……

不仅在线文档和视频可以解析,这一系列分析功能,对于本地檔案也同样适用。

更为方便的是,360AI 浏览器还有移动端版本,在手机上也能随时利用 AI 辅助上网冲浪。

已经入驻 360AI 浏览器、同样基于 CoE 架构的AI 助手(bot.360.com),则可根据任务类型和模型特长自动调度最合适的大模型。

无需切换平台,就能直接对话 54 款大模型,或者对话更加强大混合大模型,想选哪个就选哪个。

AI 助手同样支持「多模型协作」,用户可以从 54 款模型中任选 3 款,分别做专家、反思者和总结者。

未来,360 还会推出由五个甚至更多模型协作完成任务的版本。

还是在 360AI 浏览器中,AI 助手还上线了" 模型竞技场 " (bot.360.com),支持 54 款大模型产品的 " 同台竞技 ",最新版本中还上线了 " 组队较量 "、" 匿名比拼 "、" 随机对战 " 等功能。

总的来说,360AI 搜索还是 360AI 浏览器虽然侧重点有所不同,但背后体现的还是那个核心理念——

在进行 " 慢思考 " 的同时,不卷单一模型的能力,而是让模型 " 抱团取暖 ",博采众长,形成 " 众人拾柴火焰高 " 的局面。

当然,这样做的意义,也不仅仅是为用户带来了更好的 AI 体验,对各大模型的开发者而言同样是一种激励。

我们知道,大模型研发投入巨大,唯有足够多的用户才能够收回成本。

而依托 360AI 搜索、浏览器、安全卫士等入口,360 将能够触达 10 亿用户的入口开放给了大模型开发者。

这也是阿里、腾讯、百度等大厂,以及大模型六小虎纷纷加入 360AI 架构的重要原因。

所以,360 与这十多家厂商双向奔赴,实现了模型与 AI 应用相互促进、彼此发展的良性循环。

模型竞技场更是给国产大模型提供了一个在竞争中学习的平台,以及获得用户评价的绝佳机会,塑造了更加积极进取的氛围。

" 消灭 "Prompt 工程

从技术层面上看,在理念与产品之间架起桥梁的,是 360 独创的 CoE(Collaboration-of-Experts,专家协同)架构。

CoE 架构集合了数量更多的大模型和专家模型,通过思维链和 " 多系统协同 " 的方式实现了 " 快思考 " 和 " 慢思考 " 的有机结合。

在思路上,CoE 与 o1 选择了相近的路线,但是在深度上走得更远——

o1 无论再怎么融合,也无外乎是 OpenAI 的自家模型,CoE 却是海纳百川,集合了数量更多的大模型和专家模型。

△CoE 架构原理图

而且,CoE 架构中还接入了很多十亿甚至更小参数的专家模型,使得整个系统更加智能,在获得高质量回答的同时,节约推理资源、提升响应速度。

早在 CoE 架构刚发布的时候,基于 CoE 集各家所长的混合大模型能力就超过了(当时最强的)GPT-4o。

该混合大模型在翻译、写作等 12 项指标的测试中取得了 80.49 分的综合成绩,超越了 GPT-4o 的 69.22 分;而且除了代码以外,其余 11 项指标均优于 GPT-4o。

而且 CoE 架构对所有模型都敞开怀抱,比 OpenAI 在开放协作的道路上走的更远……

另外,无论是 OpenAI 的 o1,还是 360 的 CoE,都将让大模型的发展走向一个新的趋势——

复杂的人工环节将实现自动化,具体到大模型当中,就是" 消灭 "Prompt 工程。

乍一看有些反直觉,因为在我们使用大模型时,提示词的好坏对生成内容有着决定性的影响,其重要性不言而喻。

但仔细想想又并不矛盾——大模型等 AI 应用,归根结底是要为了人类而服务;

而提示工程却是让人类去适应模型的工作方式,简直 " 倒反天罡 "。

所以,提示工程固然重要,但不该成为普通用户使用大模型的 " 绊脚石 "。

解决的思路就是将提示词的设计工作,像其他任务一样,作为思维链中的一环,交给大模型来做。

这样的模式下,提示工程的灵魂依然被保留,但在用户的视野当中逐渐淡化,形成一种 " 消亡 " 的感观。

这种模式背后所反映的,也是 360 对 AI 未来发展的一点期许——

实现 AI 向着更多人的普惠,让大模型不再 " 高居庙堂 ",而是成为万家灯火。

—  完  —

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們