今天小编分享的互联网经验:谷歌 VS OpenAI:当搜索霸主和屠龙少年迈入同一条河流,欢迎阅读。
图片来源 @视觉中国
文 | 硅基研究室,作者|山核桃
鸽了太久的谷歌大模型 Gemini 终于来了。
北京时间 12 月 6 日,谷歌在深夜发布了此前备受科技圈关注的 Gemini 1.0,不仅一口气推出了 Ultra、 Pro 和 Nano 三个版本,同时也在应用层,Gemini 也与谷歌的生态相融合,例如类 ChatGPT 应用 Bard 也已更新到了 Gemini Pro 版本,针对移动端的 Gemini Nano 版本也已接入谷歌旗下的智能手机 Pixel 8。
在 Gemini 对外展现的各项能力测试中,也暗戳戳地剑指 OpenAI。谷歌提供的技术报告显示,在 MMLU 90%(大规模多任务语言理解)测试框架中,Gemini Ultra 的得分高达 90.0%,超过 GPT-4 的 86.4%。同时,Gemini Ultra 在推理、数学、代码等方面的表现也都高过 GPT-4。
而作为首个「原生多模态」模型,在一系列多模态基准测试中,对标 GPT-4V,Gemini Ultra 也展现出了先进的性能。
图源:谷歌新闻稿
在 chatGPT 发布一周年之际,谷歌通过 Gemini 赶了个晚集,想要再度证明自己在 AI 时代「霸主候选人」的实力。而 OpenAI 和谷歌,一个是经历了「宫斗」后的屠龙少年,另一个则是领先的搜索霸主,在关于谁究竟能成为大模型时代的最终赢家这一问题上,也存在两极分化的观点。
有人认为,在经历了风波之后的 OpenAI,解决了过往管理层的风险,凭借着与微软间的联盟,会持续扩大身位优势。而有的人则认为,AI 时代未来仍将属于谷歌,尽管被质疑「行动缓慢」,但在应对巨大的外力挑战面前,谷歌总是能够出招给对手致命一击。
01、为了 Gemini ,谷歌有多拼?
正如英伟达资深科学家 Jim Fan 在社交媒体上所期待的:" 我想要看到一群使用 GPT-4 的人和 Gemini Ultra 的人玩一局《太空狼人杀》,这将会是一场史诗级的对抗。"
图源:X 截图
为什么姗姗来迟的 Gemini 会被视为是 GPT-4 的有力劲敌,谷歌又为什么有底气在官方新闻稿直接写:"Gemini :我们规模最大、能力最强的 AI 模型 "。原因其实有三点:
一是,Gemini 是原生多模态的,这也是与 GPT-4 形成差异的关键。 GPT-4 尽管一种多模态模型,但 GPT-3.5 是一种自然语言处理模型。而 Gemini 从一开始就使用多模态数据(包括文字、音频、图片、视频、PDF 檔案等)进行了预训练和微调。
二是,多平台部署的灵活性,Ultra、 Pro 和 Nano,实现从数据中心到移动设备的高效运用。 比如,谷歌已在更新 Pixel 8 Pro 使用了 Gemini Nano,可提供总结与归纳手机语音等功能。
三是,基础设施的创新。 Gemini 是由谷歌 TPU V5e 和 TPU V4 训练,其中 TPU v5e 专为提供大中型训练与推理所需的成本效益和性能而设计。根据此前 Google Cloud Next 2023 大会上的信息,TPU v5e 的成本不到 TPU v4 的一半,但可以让更多企业训练和部署更大、更复杂的 AI 模型。
Google 数据中心内一排 Cloud TPU v5p AI 加速器超级计算机。
除此以外,在训练过程中也展现出工程化创新。根据民生证券的分析,如将 4096 个 TPU V4 每个芯片连接到一个专用的光学交换机,可以在大约 10 秒内动态重新配置 4x4x4 芯片立方体为任意的 3D 环形拓扑结构的超级节点,对 Gemini Ultra 还有热维护等功能的针对性部署。
而 Gemini 所呈现出的能力跃升,得益于过去一段时间内谷歌的行动。我们来看看谷歌究竟做了什么:
一是,搭建超级团队。 在今年 4 月,Google 的 CEO Sundar Pichai 就宣布合并 DeepMind 和 Google Brain,成立 Google DeepMind,集合 Google 在 AI 领網域的人才、算力等资源,开启对标 GPT-4 的研究。当时,Google DeepMind CEO Demis Hassabis 在接受采访时就表示,当时他们所面临的问题是两个团队之中如何协调,形成一个「超级团队」。
Hassabis 曾在播客中表示:" 我们作为一个领导小组讨论了大量需要考虑的因素,然后从中得出结论,并采取行动:包括合并、未来几年的计划是什么以及合并后的重点是什么?"。在这之中,灵魂人物的回归也起到了关键作用,比如谷歌联合创始人 Sergey Brin 就重返谷歌工作。根据外媒的报道,他通常每周到谷歌山景城的办公室工作三到四天,和研究人员密切合作,还研究 AI 程式「损失曲线」之类的问题。
二是,明确差异化路线。 从谷歌官宣 Gemini 开始,无论从官方口径还是媒体的报道,一直都是专注多模态路线以及安全性,这也是谷歌的天然优势。今年 7 月,当被问到正在采取哪些措施来防止滥用 Gemini 时,谷歌发言人就指出,谷歌做出了一系列承诺,以确保其所有产品中负责任的人工智能开发。
三是,发挥垂直生态的优势。 此前 5 月的开发者大会上,谷歌已经带来了诸多的软硬體更新。8 月,谷歌云又发布了生成式 AI 关键的基础设施进展,以及与英伟达的合作。可以说,在 Gemini 发布之前,谷歌已经做好了从基础算力到应用层的全部准备。
正如《晚点 LatePost》的评价,谷歌的 AI 大计划某种程度上与苹果类似,都是让「大模型变小、嵌入每一个产品」。
02、谷歌与 OpenAI 迈入同一条河流
事实上,谷歌已经不止一次被问到与 OpenAI 之间的竞争。此前, Pichai 就被问到:" 没抢在 ChatGPT 前发布 Bard,你错过了什么?" 当时的他回答说,谷歌不是第一个做出搜索引擎,也不是第一个做出浏览器。
" 有时候成为第一很重要,但有时候无关紧要。"
至少从现在与 OpenAI 的竞争来看,搜索霸主与屠龙少年,正在迈入同一条河流。
首先,是对模型推理能力的强调。 在 Gemini 的演示中,谷歌展示了其手写数学问题,识别错误,并提供解释的能力,而这也是 OpenAI 关注的焦点。此前,被曝出的 OpenAI 神秘的名为 Q* 的模型,该模型也能够解决以前从未见过的数学问题。
其次,是大模型与消费硬體的结合。 我们看到,谷歌在 Pixel 8 Pro 中使用了 Gemini Nano,而消费硬體也是 Sam Altman 十分感兴趣的领網域。Altman 此前投资了前苹果高管创立的企业 Humane,这家企业在 11 月初发布了首款接入 chatGPT 能力的 AI 硬體产品—— AI Pin。除此以外,Altman 还投了一家 AI 初创公司 Rewind AI,该公司计划制作一种项链,可以记录人们所说和听到的内容。
除了寻求更精准的推理能力和探索消费硬體外,算力也是双方关注的焦点。 不久前,根据美国《连线》杂志的报道,OpenAI 正从 Altman 投资创企 Rain 采购 AI 芯片。今年 8 月,行业分析机构 SemiAnalysis 在一篇报告中提到,谷歌拥有的算力资源比 OpenAI、Meta、亚马逊、甲骨文和 CoreWeave 加起来还要多。不过,算力一向是谷歌的优势,毕竟从 2014 年开始,谷歌就已经开始招兵买马开发 TPU 了。
03、工程师文化 VS 硅谷暴徒,群众路线与个人英雄主义
新的 AI 时代,站上浪潮之巅的究竟是谷歌等技术巨头,还是如 OpenAI 这样的新贵?没人能给出答案。
如文章开头所提到的,有人认为,在经历了风波之后的 OpenAI,解决了过往管理层的风险,凭借着与微软的联盟,会持续扩大身位优势。而有的人则认为,AI 时代未来仍将属于谷歌这样的企业,尽管被质疑「行动缓慢」,但在面对巨大的外力挑战面前,它们的行动与反击是往往是更有力的。
外界一向认为谷歌因工程师文化而在竞争的战术中始终保守,但如果了解谷歌的历史,就会知道其一直都是进攻姿态。在《浪潮之巅》中,作者这样写到:" 谷歌在规模很小时,遭受很多比自己大的公司的围攻,它把自己放在一个挑战者的位置,不断挑战对手,也挑战自己。"
因此,你也不难理解 Pichai 所说的:" 有时候成为第一很重要,但有时候无关紧要。" 像谷歌这样强调工程师文化的企业,热衷于做出技术好的产品,有些时候忽略产品体验也没关系,这在此前谷歌与亚马逊的云计算之争中落败就能看出。
工程师文化走的是群众路线,团队通过形成共识,集中资源攻克技术,待产品成熟后再推广,这是谷歌的路径。但 OpenAI 就不同了,无论从这家企业的诞生历史,还是不久前的宫斗大戏,这家企业身上都充满着极强的个人英雄主义色彩,与早期的谷歌很像。
不过,ChatGPT 诞生之初,Altman 在一次采访中否认了其对谷歌搜索的取代:" 我更感兴趣的是思考搜索以外的新应用。" Pichai 也在接受《麻省理工学院技术评论》时提到,与 GPT-4 的竞争,「并不是一个零和游戏」。
" 想想看,向人工智能的转变是多么深刻,我们还处于早期阶段,前方充满了无限的机会。"Pichai 这样说。
可以看出,尽管商业化程度不一,技术与合作模式也不同,但至少在通往 AGI 的道路上,谷歌与 OpenAI 殊途同归。