今天小编分享的科学经验:OpenAI和谷歌,AI对线中的飞驰人生,欢迎阅读。
到底什么时候,才能有一家公司赶超 OpenAI?这句问题,想必是过去一年多来,萦绕在不少读者心中的困惑。
如果全世界只有一家公司能赶超 OpenAI,谷歌应该是最有希望的选手。
同为北美 AI 巨头的谷歌,与 OpenAI 有着相同的 AGI 目标、世界级的技术人才、全球资金资源,就连 OpenAI 大模型的核心 Transformer 架构,都是谷歌原创发明的。
然而 2023 年至今,AI 领網域风云迭起,OpenAI 永远快谷歌一步。谷歌每次拿出一个 " 复仇大杀器 ",想一雪前耻的时候,总会被 OpenAI 抢走风头。
比如最新推出的核弹级多模态大模型 Gemini 1.5,只在科技话题榜上 " 炸裂 " 了几个小时,就因为紧随其后推出的 Sora 过于炸裂、更吸引眼球,而变得无人在意。
毫无疑问,AI 领網域正在进行着一场世界上最精彩的 " 速度与激情 ",领先的 OpenAI 赢得漂亮,紧随其后的谷歌也输得体面。我发现它们的境遇,被龙年春节档的热门电影,给精准拿捏了。
如果说 OpenAI 是惊艳四座、激动人心的《热辣滚烫》,那谷歌就像是《飞驰人生 2》中艰难追梦的中年赛车手,鼓起勇气全速前进,结果不是赢,而是来了个大翻车。
谁能摘下赛道终点 AGI 的圣杯,结果还未可知,这一年多来,仅仅是欣赏这一长程赛事的初始赛段,都已经令人极为振奋了。
谷歌与 OpenAI 的 AI 对线,可谓是屡战屡败、屡败屡战。我们就从这场精彩的 " 双雄竞速 ",来整体看一看北美 AI 巨头的产业对垒形势。
谷歌三连败
北美 AI 巨头的激情对线
目前,在争夺 AGI 通用人工智能圣杯的赛场上,分别有三支北美 AI 巨头:OpenAI、谷歌、Meta。
其中,Meta 走的是开源路线,其大模型系列 LLaMA 是目前全球最活跃的 AI 开源社区。而 OpenAI 和谷歌则在同一条赛道上,主要打造 " 闭源 " 大模型。
尽管 OpenAI 被嘲讽 " 不再 Open",谷歌工作人员也大胆谏言 " 我们和 OpenAI 都没有护城河 "。但换个角度,闭源的业务策略要说服用户付费,必须提供高质量模型、具备难以替代的能力优势,这也会驱动模型厂商持续创新,保持竞争优势,是 AI 产业中一股不可缺少的商业力量。
所以,北美 AI 三巨头的对垒格局,就是 Meta 卷生态,OpenAI 与谷歌卷模型。
那么,把目光聚焦到模型赛道上,比赛情况如何呢?
2023 一整年,和 OpenAI 同一赛道的谷歌,深深品尝到了 peer pressure 同辈压力的滋味。
这场竞速,可以分为三个赛段:
Round1.ChatGPT VS Bard.
结果不用多说,这是一场谷歌被 OpenAI" 摘了桃子 " 而开启的竞赛,从此就只能一路跟在 OpenAI 的尾气后面。
2022 年 11 月,OpenAI 发布 ChatGPT 一鸣惊人,开启了全球大语言模型的热潮。
其中,ChatGPT 的基础技术 Transformer 是谷歌推出的,大语言模型的涌现现象是谷歌研究员 Jason Wei 发现的(后来跳槽到了 OpenAI)。用谷歌的技术,抢谷歌的人,冲击谷歌的 AI 领导地位,OpenAI 可谓是一通 " 骑脸输出 "。
谷歌的应对,是 " 一怒之下怒了一下 "。
2023 年 3 月,谷歌紧急发布了 Bard。但这个模型本身的性能就比较弱,上线时功能有限,只支持英文,只针对少数用户,跟 ChatGPT 完全不能打。
Round2.GPT-4 VS PaLM2.
有人说,谷歌采用的是 " 田忌赛马 " 策略,第一局故意放出了比较弱的机器学习模型 Bard。这话有一定道理,但架不住 OpenAI 的每匹马都是好马。
OpenAI 很快推出了更新版的 GPT-4,并开放了 GPT-4 的 API,把谷歌甩得更远了。
5 月的谷歌 I/O 2023 大会,派出来对打 GPT- 4 的 PaLM 2,也是一个 " 过渡产品 "。谷歌研究副总裁 Zoubin Ghahramani 对外表示,PaLM 2 是对早期模型的改进,仅仅缩小了谷歌与 OpenAI 在 AI 方面的差距,但并没有整体超越 GPT-4。
这一轮,谷歌仍然落后。谷歌显然也清楚这一点,在这场大会上同时宣布,正在训练 PaLM 的继任者,名为 Gemini,押注了上亿身家,准备在年底上演 " 王子复仇记 "。
Round3.Gemini 家族 VS Sora+GPT-5。
2023 年底的 12 月,谷歌 Gemini" 虽迟但到 ",这个谷歌目前最强大、最通用的 AI 模型,被媒体称为 " 复仇杀器 "。这期间,OpenAI 上演了一出 " 甄嬛回宫 " 的宫斗大戏,没有特别炸裂的产品。这一次,谷歌能夺回属于自己的一切吗?
很遗憾,谷歌并没能上演 AI 领網域的 " 龙王归来 "。
三个尺寸的 Gemini:Nano、Pro 和 Ultra,其中 Gemini Pro 在常识推理任务中落后于 OpenAI 的 GPT 模型,Gemini Ultra 对于 GPT-4 仅有几个百分点的优势,而 GPT-4 是 OpenAI 一年前的产品。而且,Gemini 还被爆出,宣称打败 GPT-4 的多模态视频,有后期制作和剪辑的成分,用中国模型产生的中文语料进行训练,自称是文心一言。
谷歌一鼓作气,一脚油门,Gemini Ultra 发布还没几天,就推出了多模态大模型 Gemini 1.5,能够稳定处理高达 100 万 token,创下了最长上下文視窗的纪录。
这是一个激动人心的成果,如果没有 Sora 的话。
OpenAI 几个小时之后,就推出了文字视频生成模型 Sora,用前所未有的视频生成性能,以及世界模型的产品化,再一次惊艳了世人,抢走了本应属于 Gemini 1.5 的话题度,也强化了自己的 AI 领导地位。目前人们倾向于认为,OpenAI 还是领先谷歌一筹。
此前大家都猜测是 GPT-5 已经训练得差不多了,面对谷歌目前最强的模型 Gemini 1.5,已经有人隔空喊话奥特曼,问他还要把宝贝捂到什么时候,还不快点放出 GPT-5。
至此,为期约一年的北美 AI" 田忌赛马 ",以谷歌的三连败,暂时告一段落。
AGI 的殊途
难以飞驰的谷歌
AGI 是一场长长的赛事。拉长时间轴,谷歌与 OpenAI 的一年对垒与一时成败,或许未来看都不算什么。有资格走上顶级赛道,本身就是谷歌 AI 实力的一种证明。
比起输赢结果,更值得讨论的是,谷歌变成 " 卷王 " 卷了一整年,为什么会一直被 OpenAI 甩在身后,怎么折腾都跟不上?
田忌赛马,输一次是战术失误,次次都输,可能就能关注一下,是不是从马种、马圈、草料等源头,就已经存在问题了。
回到源头,谷歌和 OpenAI 可谓是同归、殊途。
同归,是双方都以实现通用人工智能,摘下 AGI 圣杯作为目标;
殊途,是双方选择的技术路线不同。OpenAI 将更为通用的语言能力,作为实现 AGI 的基础,因此采用了对 NLP 领網域至关重要的 Transformer 架构,打造了一系列 GPT 模型,才有了 ChatGPT 的惊艳亮相。
而谷歌则不然。多年来,谷歌的 AI 研发机构 DeepMind,将强化学习、深度学习用于解决各种人工智能问题,技术积累非常广泛。比如石破天惊的 AlphaGo、彻底改变生物学的 AlphaFold,以及 Transformer 等 NLP 技术。
这就相当于,两个车手在为比赛准备赛车,OpenAI 为 AGI 选了一个场地,比如 " 方程式赛车 ",然后以语言为核心进行模型的开发制造,对赛车(模型)的结构、长宽、发动机、汽缸等进行优化改造(工程化)。而谷歌的 DeepMind 则不确定哪种车能终结 AGI 比赛,手里的技术工具又很多,于是方程式赛车、跑车、摩托车都造一下试试。
两种路线原本并没有什么优劣之分。但随着大语言模型的 " 智能涌现 ",证明了 OpenAI 选择的技术路线更有希望实现 AGI,谷歌 DeepMind 的技术路线就暴露出了明显的短板:
1. 方向分散,成本高昂。在各个技术方向上投入的泛创新,消耗了大量资金,DeepMind 与谷歌母公司 AlphaBeta 在商业化上的矛盾日趋加深。在 OpenAI 大幅融资加速的时候,谷歌为了加大对 AI 的投资,通过裁员来节省成本。
2. 选型太多,难以聚焦。谷歌开创了许多技术,但每个技术的重视程度、持续深入强度也被分散了,四处打井不出水。最典型的就是 Transformer 架构,由谷歌发明,但被 OpenAI 发扬光大。ChatGPT 的涌现现象,也是研究员在谷歌发现之后,但得不到重视,出走 OpenAI 后向前推进。
3. 落地迟缓,成果太慢。谷歌内部对 AI 的保守也是出名的,导致其即使掌握了先进的技术,成果转化的效率也很低下。有前谷歌员工曾吐槽,谷歌的项目一般都是先吹一阵牛,然后什么也不发布,一年后再把这个项目给砍了。这一点在 Sora 的爆火上就能看到,训练 Sora 使用的扩散模型(diffusion model)、文生图模型,谷歌都有相应的技术储备和成果,但就是没能先搞出 Sora 这样的产品。
可以看到,由于一开始就押注错了赛道,等到大语言模型成为 AGI 最有潜力的实现路径,OpenAI 领先的大势已成。这时的谷歌再要回到 OpenAI 所在的技术赛道上,当然就处于劣势身位了。
一步错,步步错的 " 人生 "
挺住意味着一切
坦诚地说,谷歌已经在积极解决问题,包括技术战略选择失误、内部的管理效率人事冗余、AI 技术人才的外流等。
去年 4 月,谷歌将自己的两个 AI" 扛把子 " 团队——谷歌大腦和 DeepMind 合并,共同进行 Gemini 的开发。从最终效果来看,Gemini 的表现是很优秀的,1.5 版本是目前全球最领先的大模型之一。内部资源也大幅度向 AI 领網域倾斜,一些外流的 AI 人才回归谷歌。
实际行动表明,谷歌在明确了赛道之后,追赶 OpenAI 的决心和速度都是一等一的。
但持续落后的现实也充分诠释了一点:自己的失败固然可怕,朋友的成功更让人揪心。
尽管谷歌竭力解决自身的种种弊病,全力推动大模型,但架不住 OpenAI 的加速度更强大。
一方面,OpenAI 的研发团队可谓是全力以赴,而谷歌新合并的团队还需要磨合。Sora 核心研发人员 Bill Peebles 曾透露,团队每天基本不睡觉高强度工作了一年。而谷歌大腦和 DeepMind 合并之后,很多员工不得不放弃自己原本熟悉的軟體,放弃原本开展的项目去开发 Gemini,这些内部磨合导致的项目延迟、停滞,必然会给谷歌追赶 OpenAI 带来阻碍。
另外,相比谷歌亡羊补牢式地招回人才,OpenAI 虹吸全球顶级 AI 人才的气势如虹。就在 2 月份,Altman 公开在社交媒体上表示," 所有关键资源都已到位,非常专注于 AGI",在线诚聘人才。AI 的竞争归根结底是人才的竞争,因为 AGI 最重要的是智力资源,而最顶尖最优秀的人才一共只有那么多,这也让人为谷歌能否追赶上 OpenAI 捏了一把汗。
电影《飞驰人生 2》中,主角再度尝试赛车而翻车后,他没有继续追求赛场上的赢,而是作为一个深爱着赛车运动的车手,踏上赛场,只为证明自己。
谷歌与 OpenAI 的对线,也不能归于简单的输和赢。正如谷歌在「Why We Focus on AI ( and to what end ) 」中所言:我们相信 AI 能够成为一项基础技术,彻底改变全世界人民的生活——这正是我们追求的目标,也是我们的激情所在!
所有勇于下场、站上跑道的 AI" 赛车手 ",都值得掌声。而这场充满了速度与激情的 AGI 比赛,一定还会带给观众席上的我们,更多震撼。