今天小编分享的科技经验:大模型落地,搜索先成卷王,欢迎阅读。
文 | 戴菁
大模型重新诠释了「中国速度」。自从今年 3 月百度发布国内首个类 GPT 产品以来,短短 3 个月时间,国内已经跑出 79 个 10 亿参数规模以上的大模型。
《中国人工智能大模型地图研究报告》还提供了另外一个观察视角:美国和中国发布的通用大模型总数已占全球发布量的 80%。很明显,中美两国的科技企业正在成为这轮席卷全球的生成式 AI 革命的主要推手。
Open AI 和微软构成的联合阵营,已经在教育、投行、办公领網域打造出多个标杆级的应用落地场景,如堪称王炸的 Office 全家桶、语言学习平台 Duolingo 的 AI 陪练、摩根士丹利的数十万页知识库,以及支付服务平台 Stripe 用于打击欺诈的最新解决方案。这些落地案例同时涵盖了 B 端和 C 端。相较之下,国内大模型的上线速度之争刚刚告一段落,大规模商业应用落地还在路上。
这段路极具挑战,但至关重要。百度 CEO 李彦宏最近在一次会议上强调,「新的国际竞争战略关键点不是一个国家有多少个大模型,而是你的大模型上有多少原生的 AI 应用,这些应用在多大程度上提升了生产效率。」
公开信息显示,跑在最前面的文心一言,目前已经推出 11 个行业大模型,覆盖汽车、能源电力等多个 to B 领網域。
此时谁能打响大模型 to C 应用第一枪,成为备受关注的一个焦点。注意,是商业应用上的打「响」,而不是 PPT 层面的「打出」。
图源:《中国人工智能大模型地图研究报告》
站在 C 端用户视角,《降噪 NoNoise》认为,教育和搜索两个领網域都有机会:教育无需赘言,从那些 AI 学习机等终端硬體的热卖不难看出,要说大模型的刚需付费群体,还得是家长;至于搜索,拥有 GPT 的新 Bing 可以让微软 CEO 纳德拉骄傲地说出——是微软让谷歌「跳舞」,可见大模型为搜索带来的想象空间有多大,而且搜索本身就是世界上规模最大的 AI 应用场景。
同时看到这一前景的百度也在不舍昼夜地「炼丹」。通过密集推出「AI 伙伴」等生成式 AI 产品,百度希望加快将搜索带入新时代,并继续保持市场引领者的地位。
问题来了,搜索会打响大模型大规模应用的第一枪吗?
01
搜索框背后的几个真相
在回答这个问题之前,我们需要先界定搜索与大模型的关系本质。
ChatGPT 横空出世后,一种声音认为谷歌、百度等搜索巨头都将被颠覆,Open AI 会成为搜索游戏规则的改变者。
最负盛名的代表人物是微软联合创始人比尔 · 盖茨。他在年初预言,未来的顶级 AI 公司会在 AI 个人助理上发力,用户永远不会再去搜索网站和亚马逊。尽管在 2019 年 9 月之前,盖茨对 Open AI 的技术能力一直存疑,还被马斯克怼过「对 AI 的理解十分有限」。
置身事内的搜索巨头们显然持有不同看法。「我觉得应该会加强百度的地位,因为 ChatGPT 要解决的问题很多就是搜索要解决的问题,它们的目标是一致的。」近期在一档名为《新智者首席 Time》的栏目访谈中,百度副总裁、搜索平台负责人肖阳作出自己的判断。自 2004 年加入百度,肖阳见证了搜索行业 20 年的发展历程。
从演进路线来看,搜索引擎诞生之初要解决的是信息获取效率的问题,为用户提供从提问到答案的最短路径。此前类似的检索任务先后由《大英百科全书》、网络黄页等信息工具来承载,直至算法出现。
算法让搜索引擎天然拥有 AI 基因,因为机器执行任务的前提是「理解」搜索框背后的需求。
只不过在不同阶段,信息匹配的方式各不相同。
以肖阳入行的 2004 年为例,当时搜索引擎还处于关键词检索时代——用户要像在图书馆里搜书一样,在搜索框敲下关键词,然后通过不断变化关键词,找到精准匹配的网页内容。
当年百度搜索的 PM 内部还会举办比赛,试图不断寻找更快搜到目标资料的方法。
后来用户的需求越来越强,从关键词检索变成提问题,搜索演变成非对称性匹配,即当用户提问后,搜素引擎给出的是类似专家咨询式的回答。打个比方,用户问「明天天气怎么样?」,答案可能是「雷阵雨伴有短时大风」。这个回答中压根没有出现与问题交叉的关键词。
该匹配模式要求搜索引擎对用户问题及全网内容这两端都要有更深入的「理解」。
这大概能解释,为什么 2013 年百度、谷歌、微软都会不惜代价参与对「深度学习之父」杰夫 · 辛顿教授的公司的收购竞拍。
当时辛顿教授刚刚取得深度神经网络技术的重大突破,搜索巨头是最早嗅到技术潜力的一批公司——深度学习有望提升搜索效率。事后看,搜索也为深度学习提供了最早的应用落地场景。百度、谷歌都是最早布局深度学习的科技巨头,百度大腦、谷歌大腦后来也都成为顶级 AI 开放平台。
图:杰夫 · 辛顿
大约从 2018 年、2019 年开始,深度学习又迎来一轮突飞猛进,搜索引擎的语义变革继续演进。谷歌、百度等搜索巨头的大语言模型越来越大,模型能力越来越强,智能搜索引擎雏形已现。以百度为例,其在 2019 年便推出文心大模型 1.0,此后持续迭代到 2.0、3.0 版本。
正是基于这些积累,在 ChatGPT 发布后,谷歌和百度能很快推出 Bard、文心一言。外界看似一夜间长出来的大模型产品,实则是搜索巨头多年业务实践积累的产物。
被 ChatGPT 抢了风头后,谷歌 CEO Sundar Pichai 在一次采访中不无憋屈地说,「实际上我们已经拥有 AI 模型十几年了。」
李彦宏也在公开演讲中数次强调,无论是哪家公司,都不可能靠突击几个月就能做出(文心一言)这样的大语言模型。「深度学习、自然语言处理,需要多年的坚持和积累,没法速成。」
02
搜索之变
搜索引擎发展到今天,已经成为世界上规模最大的 AI 应用场景和成功的商业模式。
从技术演进来看,似乎也很难得出搜索被大模型颠覆的结论。如果说狭义的搜索只是一个「搜索框」,广义的搜索则是用户表达和机器反馈的一个过程,而搜索框、对话框只是不同的人机互動形式。
这也是肖阳为什么会说 GPT 和搜索引擎目标一致的底层逻辑。甚至大模型会让头部搜索引擎在竞争格局中处于更加有利的位置,因为搜索有马太效应——拥有更多用户、技术、数据和算力的公司,产品效果会越来越好。
全球至今只有美中俄韩 4 个国家拥有本土搜索引擎不是没有道理的。作为一项互联网基础设施,后来者很难颠覆格局。当然欧盟还是不信邪,2022 年曾掏 5800 万元试图打造一个欧盟自己的开放搜索引擎,以替代谷歌,目前还没有下文。
基础大模型也有相似特点,跑在前面的会跑得越来越快。「百度一手有搜索,一手有文心一言大模型或者说生成式 AI 技术,就像同时持有倚天剑、屠龙刀,双剑合璧会产生更大的价值。」在作此判断的同时,肖阳也承认,头部搜索引擎并不能因此在竞争中松懈半分,理应让用户体验发生迅猛的变化。
「其实这个事很简单,你让用户满意了,用户就留下来,你让用户感知到你能够使他满意,新用户就会来,你让他不满意,他就会走。」
用李彦宏的话说:永远不要以任何方式遏制用户的需求表达。
用户需求表达的更新,只能用技术的更新来回应。在生成式 AI 出现之前,用户的需求表达方式已经呈现出越来越丰富、多元的趋势,比如更多口语化、模糊化表达、对图片和视频类信息搜索需求上升。
对此,搜索引擎巨头们纷纷在语意推理模型的基础上强化跨模态能力,类似后来的 GPT-4。
大语言模型的出现也把搜索引擎带到更为智能的阶段——能听会看,越来越懂用户。过去人们调侃:谷歌可以给你 10 万个答案,但是一个图书管理员可以给你最为精准的答案。如今,大模型让搜索引擎解决问题的能力更强,并开始朝着广义的搜索生成体验演进。
从行业引领者百度最新探索的一系列路径,我们可以看到这种演进趋势的眉目。
通过「卷」起自己,百度把「极致满足」比例提升为搜索内部隐形 OKR。
所谓极致满足,就是在用户问出一个问题后,看搜索引擎给出的首条回答能不能解决你的问题。
首条回答的形式不仅有文字,还有视频,搜索引擎可以从一段视频中抽取出关键摘要。比如当家长想找一部教小朋友画画的艺术卡通片,以前需要花时间去浏览、筛选、判断和总结。而现在,百度搜索可以为用户整理多个答案,并标注每个答案被提到的次数,每个答案中还包含更丰富的内容,大大节省了家长的精力。
另外一个有意思的探索在于「权威回答」。ChatGPT 出现后,人们在震撼之余很快发现,它还会一本正经地胡说八道。计算机「幻觉」的存在,让部分内容的真实可信度打个问号。百度搜索的新功能,则可以引用书籍直接回答提问,以增加信任感。
当你问出某个问题,搜索引擎可能会告诉你在这个问题在哪本书里写过,随后是进一步有拓展的阅读,其相当于一个 AI 时代图书管理员的角色。
肖阳透露,百度搜索一直在关注「极致满足」数据:半年前,「首条满足」比例只有 40%;现在达到 70%。且从数据变化来看,用户是愿意为搜索体验的上升而买单的——今年以来,百度搜索日均新增问答需求超过 5000 万次。
作为搜索代际变革的一部分,能听会看的「AI 伙伴」也走上重要位置。百度在今年 5 月底的移动生态大会上首次演示了内测「AI 伙伴」的能力。
现场 Demo 显示中,它不只是一个聊天机器人的对话界面,还能帮助用户标记答案重点、提供权威来源,总结文档概要,同时支持调用各种工具和服务,以及根据用户意图制作图片或进行文案创作。
据了解,这个「AI 伙伴」目前还在内测当中,用户的许多需求让工程师意想不到,预计未来「AI 伙伴」的能力都会持续演进。
不过未来会否进入比尔 · 盖茨所预言的 AI 个人助理时代,最终还要依赖搜索引擎与大模型的融合程度。这条路径充满挑战,同时也被想象力铺满黄金。
03
新故事
在去年的一场媒体交流中,肖阳曾聊到一个问题:搜索做到最后,拼什么?
业内公认,搜索是互联网领網域难度最高的业务之一,它可是一个简单的搜索框,也可能是一个非常开放的体系。但这个市场从来不乏挑战者。前两年,字节、华为等都有积极布局相关业务。彼时 ChatGPT 还没有带来颠覆性变革。
肖阳当时的回答是,最终拼对用户的理解、对技术的投入以及能否把搜索做到极致的能力。如今大模型的智能涌现,让所有人同时看到了做到极致的方向——搜索生成体验,甚至辅助决策。
这些进化反过来不断激发新的用户需求。
大模型也让百度搜索有了新故事。过去百度只是一个需求的「起点」,用户获取信息后,再去到其他网站或者 App 获得服务场景,比如电商、本地生活或者内容创作。
为了提升服务价值,百度陆续通过布局小程式、百家号等产品进一步丰富搜索的内容生态,希望以此让用户能够一站式解决问题,享受闭环服务。放眼全球搜索行业,这种生态战略布局都有领先价值。
不过大模型出现以前,补齐理想的生态闭环需要更长的时间和耐心,因为工具类产品都有用户粘性和停留时长的挑战。
大模型加速了闭环的形成,它拉通了提问、找答案、决策落地的全过程,搜索引擎也因此获得更大的商业想象力。这大概是所谓「双剑合璧」的商业价值。
几乎可以预见,融合更多人工智能创新应用后,搜索引擎们可能会打造一个更有活力的生态系统。
从百度等公司今年以来密集亮出的「武器库」、「路线图」来看,搜索主要玩家大概率不会被颠覆,相反会作为颠覆式创新的主要参与者,继续推动技术变革。
>