今天小编分享的互联网经验:一个GPT的幽灵在Gemini上空徘徊,欢迎阅读。
每次 Google 在生成式人工智能领網域祭出大招,都能让人感到一种隐秘且巨大的情绪力量:隐忍、不甘与较量。
在 5 月的上,Google 发布 PaLM 系列模型,即被视为是对彼时风头正盛的 GPT-4 的强劲挑战。年底毫无预警地祭出系列大语言模型(包含移动版 Nano、基础版 Pro 和高级版 Ultra),在关键性能和基准评测指标上针对 GPT 的意图更加直接。
Google 官方声称:在被大型语言模型研究和开发广泛使用的 32 项学术基准中,Gemini Ultra 的性能有 30 项超越了目前 GPT – 4 代表的最先进水平。Gemini 标榜 " 原生多模态 ",这让它一开始就在文本、影像、音频、视频和代码等组合模态上进行预训练,故而可能在复杂理解和推理方面有更强表现,特别是解决数学和物理问题。
Google 不遗余力地强调上述优势—— OpenAI 走的是 " 渐进式多模态 " 的路,先基于文本语料,代码跟进,再影像视频音频,最后把这些能力组合在一起训练。而 Gemini 从一开始就在多模态语料上训练,再用多模态数据调优,比 OpenAI 训练 GPT 的方法 " 先进 " 一些。
" 先进 " 的多模态训练,理论上能带来更强劲的性能。公布的 Gemini Ultra 学术基准评测结果大面积超越 GPT-4 的细节似可说明。但学术基准测试本身就是理论的一部分,并不能真正体现应用的效果。不少人挤兑中国一些大语言模型热衷于 " 刷分 ",我们该一视同仁,Google 的做法与国内大模型冲着超越 GPT 刷分,本质上没有什么不同。
目前社交平台 X 上实测 Gemini Pro(Bard 聊天机器人目前只支持 Pro 版)的用户已经贡献了不少吐槽。比如它混淆了 2023 年和 2022 年的奥斯卡奖得主,也不会用 Python 写入两个多边形的交集这种简单函数。我们还发现它识别不出叶子的数量,以及做不对简单的求锐角几何题。即便 Gemini Pro 对标的是 GPT-3.5,它也还是差了点意思。
被人们指出的另一个突出问题是 Gemini 的宣传视频 " 造假 ":Gemini Ultra 对一组手势动作很快做出反应,说这是一个石头剪子布的游戏,但它未被视频显示的功能文档却给出了至少两条提示:" 我在做什么?"," 提示,这是一个游戏 "。其它的一些测试甚至需要更多的提示问题辅助生成结果,但这个过程在 Gemini 的官方视频里被省略掉了。以至于大多数不太较真的人高估 Gemini 的理解能力和反应速度,这不能不说是个误导。
我到现在都记得 2017 年我在 Google I/O 的现场,台上的 Google 员工演示如何通过 Google Assistant 语音助手直接预订一家餐厅,下面掌声雷动,我也跟着拍巴掌,觉得太棒了。但一个月后即传出这是一个事先准备好的桥段。Google 没有造假,但它通常太希望展示其 AI 能力的无与伦比,太急切地呈现自己的 AI 乐观主义,以至于经常缩略呈现了背后的过程,也就事实上夸大了效果。
说白了,Gemini 视频的夸张呈现,只是说明 Google 太在意 Gemini 比 GPT 强了。它很着急,加上人们对任何跟较劲的大模型,特别是巨头的 " 杰作 ",通常都比较苛刻。当然,人们对 Google 是最苛刻的——毕竟 OpenAI 选择用 Google 发明的 Transformer 架构搞出了划时代的 GPT 模型,动机之一就是摆脱 Google 无所不在的 AI 压制,那谁还不希望看见 Google 露怯呢。
某种程度上,Google 是 OpenAI 在这个星球上唯一的孪生。包括 Meta 的 LLamA 架构都是开源的,以马斯克老师对开源的偏爱,Grok 未来大概率也得开源。中国的大语言模型也在不同程度上都走了开源道路。只有 OpenAI 和 Google 是坚定闭源的,这就让 Google 在大语言模型上的进展,本能地与 OpenAI 形成了强绑定关系。
还有一个戏剧性的张力:每次 OpenAI 有围绕 GPT 的大动作,舆论都会喊 Google 出来挨一回落后就要挨的打。然后 Google 差不多一定会在 OpenAI 出招之后的一到两个月,祭出一个新的大招,证明一下你大爷还是你大爷。然后再憋几个月,OpenAI 再出招,Google 再被喊出来挨打。格局真就会因此改变么?
某种程度看,Google 在生态建设上还是比 OpenAI 落后了一个身位。毕竟这个世界上已经有几百万个开发者自己做的 GPTs 了。而 Google 最早要到明年初才能向开发者和企业客户提供强化训练反馈后的 Gemini Ultra,让人们在上面开发自己的应用。到那时恐怕 GPT Store 都已经正式推出来了。我一直有点困惑,Google 当年难道不是靠 Android 的开源夺得苹果半壁江山的么?这次怎么把这个角色让给 Meta 了?
我真的不是要怪 Google,我更期待 Google 证明自己。我们这群在 1990 年代末接触互联网的人,对 Google 是有一些很微妙的特殊感情的。而 Google 也必须证明自己的 AI First 战略能结出真正的果实。只是 GPT 的幽灵在 Google 徘徊,是一个事实。谁都可以试图摆脱这个幽灵,唯独 Google 不行,这是它无可选择的对手。
其实 Google 今天围绕 Gemini 所做的一切,某种程度上能让我们中国的大语言模型开发者心有共鸣:大家的头顶上都徘徊着 GPT 的幽灵,这就让大家都试图通过某些努力,证明自己在某些方面比 GPT 做得更好。
Google 在 Gemini 基准测试中采用了一切小 " 技巧 "(采用更复杂的思维链提示和结果选优,而测试 GPT 只用 5 次反馈且无提示词)获得了碾压 GPT 的成绩,类似的测试方法我们是不是听起来很熟悉?中国的大语言模型研发者有没有一种老乡见到了老乡的戚戚然的感觉?
我们经常喜欢将智谱、百度和 Minimax 的努力与 OpenAI 做对比,但换一个思路,其实大语言模型的较量,何尝不是百度、智谱、Minimax、Google、Meta、Anthropic 和们一起在围攻 OpenAI 的光明顶?从这个意义上,中国大模型和美国除 OpenAI 之外的大模型在一个阵营一个战壕里,是抱团也是互相学习的对象。大模型的百草我们这些神农尝多了,就发现我们中国的大模型不是比美国的大模型差,只是不如 ChatGPT,就这样。
Google 这次训练 Gemini 另一个值得圈点的地方,是它完全采用了自家的芯片集群—— TPU 进行的训练。Google 官宣 TPUs v4 和 v5e 在通过 AI 优化过的基础设施上实现了这一大规模训练,可扩展性强且推理最高效。这恐怕是我们听说的一款性能还算强劲的大语言模型,不依赖英伟达的算力和软硬體架构而修成正果的。当然人家 TPU 是自产自销的,但我看到了 " 替代英伟达 " 这件事在大模型训练实操上的可能性和可行性。这对中国的大语言模型训练意味着什么,不言自明。
此外,Gemini Nano 也是一个亮点,这是一款尺寸最小的 Gemini 模型,优先用于 G 家自产的 Pixel 8 手机上。" 端侧大模型 " 是近期的一个话题,其实它更接近 " 小模型 "。中国智能手机厂商 OPPO、vivo 和小米近期都有发布自己的端侧模型,联想则从 AI PC 的维度也切进了事实上的同一个领網域。这次 Google 加入了这个阵营,应该是一个信号,这件事值得努力,有的做。
其实很神奇。从 Google 这次 Gemini 模型的发布,我看到了 Google 与一众我们熟悉的中国大语言模型开发者同样的境遇和努力:那种隐忍、不甘和较量,那种偶尔展露的在一些基准测试关键指标上跟 OpenAI 较劲的小手段和小心思,那些试图建立自己生态的步步为营,那种试图摆脱英伟达算力的尝试,以及基于移动优势在端侧模型的努力……面对 OpenAI,大家都是一样的。
一个 GPT 的幽灵,在 Gemini 的上空徘徊,也在我们每一个中国大语言模型的上空徘徊。
>