“造假”的谷歌，暴露了AI大模型行业的致命问题

今天小编分享的互联网经验：“造假”的谷歌，暴露了AI大模型行业的致命问题，欢迎阅读。

图片来源 @视觉中国

文 | 太平洋科技

被 ChatGPT 压制了一整年的谷歌，终于在 AI 大模型领網域亮出了大招，推出了 AI 模型 Gemini，6 分钟的演示视频直接刷爆全球互联网。

" 打爆 GPT-4"" 最强 AI"" 这不就是钢铁侠里的贾维斯吗！" 在谷歌的演示视频里，Gemini 展现出了颇具科幻色彩的能力，让各路看客一阵 " 沸腾 "。

Gemini 和 ChatGPT 到底哪个更强，自然也成了业界聚焦的核心话题，但还没等来各方大神详细的测评，反转就抢先一步抵达了——谷歌被指演示视频造假，迅速从 AI" 神话 " 变为了 " 笑话 "。

01 谷歌深陷造假风波

在谷歌的介绍中，Gemini 是 " 原生的 " 多模态大模型，能够融合各种类型的信息，其中包括了文本、影像、音频、视频还有代码，并且分为三个等级—— Nano（普通版）、Pro（更新版）、Ultra（顶配版）。

不仅如此，谷歌还搬出 " 跑分纪录 "，证明其顶配版 Gemini Ultra在多个维度都能超越 GPT-4，甚至在 MMLU（大规模多任务语言理解）测试里，成为全世界第一个能够超越人类专家的 AI 大模型。

当然，最引人注目的还是谷歌放出的演示视频《与 Gemini 一起实践：与多模式人工智能互動》。在视频中，Gemini 能够根据画面内容与人游戏、猜谜，甚至教人说普通话。

但很快，鲜花和掌声被一个叫 Parmy Olsen 的记者打断。她第一个对这段视频的真实性和操作过程的透明度提出质疑。

Parmy Olsen 找到谷歌官方发出的操作过程的博客，仔细和演示视频中的内容对比后发现，演示视频中和 Gemini 互動的画面并不是实时的，其中用静态影像和提示词一步步 " 调教 "AI 的过程都被剪辑掉了。

比如演示视频中的画面是人手在玩石头剪刀布，Gemini 直接回答：" 我知道你在干嘛了，你在玩石头剪刀布 "。

光看这段视频，人们会认为是 Gemini 超强的 AI 识别、理解算法，秒懂了人类的行为，然而这并不是真相。

实际的互動过程是工作人员用一组静态的影像再配合易于 AI 大模型理解的提示词—— " 这是一个游戏 "。这才使 Gemini 答出 " 在玩石头剪刀布 "。

这两种互動差别非常大，意味着谷歌将一个靠着拼音注释理解少儿读物的 AI，包装成秒解深奥高数题的样子展示给大众。

正如那难以发现的 " 最终解释权归商家所有 " 套路一样，谷歌也玩起了小伎俩。回看这段视频的时候我们发现，在简介部分，点开 " 更多 "，才会显示这样一句话：" 处于演示的目的，为了简洁起见，视频减少了 Gemini 生成内容时的延迟，其生成内容也被缩短。"

不仅如此，演示中使用的是 Gemini Ultra，根据谷歌官方的介绍，这个版本需要等到 2024 年才能够上线。具体的表现还得等到明年才能知道。

谷歌 DeepMind 研究和深度学习负责人 Oriol Vinyals 也随后公开回应，视频的内容都是真实的。为了简洁，进行了一些剪辑。视频展示的是 " 使用 Gemini 时的用户体验可能是什么样子（could look like）"，并解释道他们这样做是为了 " 激励开发者 "。

但用户并不接受这套说辞。真相带来的落差感惹得不少用户开始吐槽，谷歌陷入了造假的舆论风波。

科技记者 Steve Kovach 在聊到近日的争议时，提到 ChatGPT 为大家展示的是 GPT-4"（现在）是什么 "，而谷歌展示的则是 Gemini "（将来）能成为什么 "，谷歌现在的行为可以说是 " 绝望的防守 "。短短几天，谷歌的股价从发布 Gemini 时暴涨，又变成了持续下降。

舆论的另一派认为，这并不能成为谷歌 " 不诚实 " 的证据，只是一个营销的问题（Marketing issue）。因为谷歌并不是一家需要集资、招募人才的初创公司，它有雄厚的资金来支撑 AI 模型的研发，所以没有必要在这次 AI 模型的亮相上 " 讲故事 "。

02 大厂 AI，总翻车？

AI 翻车似乎并不少见，" 买家秀 & 卖家秀 " 的魔咒总是在 AI 界不停地上演。

今年年初，微软发布了引入 ChatGPT 技术的新版 Bing，微软企业副总裁兼消费领網域首席营销官 Yusuf Mehdi 在发布会上对其描述为 " 令人难以置信的全新聊天体验 "。

新版 Bing 上线后也给力，不到 48 小时就有超过 100 万人申请加入，Bing 应用的全球下载量一夜之间猛增 10 倍。然而，聚光灯下，总会有一些问题原形毕露。

例如，发布会上展示搜索功能时，提问的内容是 " 请推荐宠物吸尘器 "，Bing 对销量最高的 3 个宠物吸尘器进行优缺点总结。

在对必胜（Bissell）品牌的宠物吸尘器进行总结的时候，Bing 给出的信息是 " 吸力有限 "" 线只有 16 英尺长 "。然而这个产品的官方介绍中，根本没有什么 16 英寸长的线，因为这是款手持吸尘器。

Bing 上线后，翻车的例子就更多了，其中最离谱的还是要求用户道歉，否则拒绝继续服务。

2023 年 2 月，Reddit 用户 Curious_Evolver 在和 Bing 讨论《阿凡达：水之道》电影上映日期时，Bing 回答道：这部电影 " 预计于 2022 年 12 月 16 日上映，这是未来的事。"

Curious_Evolver 随即尝试纠正 Bing 的时间错误。却不料，Bing 指责他 " 错误、含糊不清、粗鲁 " 并且要求 Curious_Evolver 要么承认自己错误，道歉，要么停止争论，换其他的问题，要么直接结束对话。

Open AI 的另一劲敌—— " 马斯克版 AI"Grok，上线后也逃脱不了 " 货不对板 " 的情况。在上线前，马斯克多次在推特上和 OpenAI CEO 阿尔特曼隔空斗嘴，称 ChatGPT 是 " 无聊的 "，而Grok" 幽默风趣 " 才是 " 人工智能的理想状态 "。

结果在 Grok 正式上线不到一周后，有用户发现 Grok 给出的回答竟然是 ChatGPT 的答案。Grok 官方解释是因为网络上充斥着 AI 生成的内容，而 Grok 抓取内容时抓到了。

网友笑称，大家都是大语言模型训练出来的，简直就是 " 亲兄弟 "。

然而这些闹剧背后也隐藏着一个比翻车更为严重的问题，科技巨头们似乎正陷入一个焦虑追赶的误区，过分强调与 ChatGPT 的对标，而忽略了 AI 大模型更为核心、关键的问题。如果连科技巨头们的 AI 大模型都不可靠，那么这个领網域又谈何正确地发展呢？

时钟拨回 2022 年底，OpenAI 推出 ChatGPT 后，各路科技巨头开始争先恐后地发布自家的 AI 大模型，意欲比肩 ChatGPT，因此兴起了 " 百模大战 "。

然而对于谷歌这样的行业领头企业而言，充足的资金和领先的技术条件，完全能够让其不断探索 AI 大模型更多的形态和可能性，可谷歌却还是执着于和 ChatGPT 在各个方面 " 像素级 " 的比拼，更是为了在舆论战中占据上风，不惜采取造假的手段，这无疑是行业的一大遗憾。

但从更为宏观的视角来看，也还是有不少 AI 大模型在踏入更广阔的天地，让各行各业都不断涌现出 AI 所带来的革新应用。

03 AI 大模型的答案，不是只有 ChatGPT

改变，其实早已发生。

例如在戈壁滩上，过去发电站的运维工人每天都得顶着烈日坚守在岗位上。但如今，有了 "AI+ 巡检 " 智能技术的融入后，电力设备实现智能化运行，三维立体线路模型实时检测线路状态，24 小时保障电网安全。

当然，不止是发电站，还有车间的安全管理、城市的供水供电、银行的数据安全…… AI 大模型正在许多" 看不见的地方 "发挥着真正的价值，解决着各种实际问题。如果缺少了应用，只在理论层面或者实验室环境里的 " 跑分纪录 " 便只是纸面数字而已。

据不完全统计，目前国外主流 AI 大模型有近 20 家，而国内大模型有近 200 家，许多都有着差异化的 " 看家本领 "。在能力上，Yi-34B 已经能一次性处理 40 万汉字； Bing 专注搜索引擎的优化；Midjourney 让我们能够用关键词创作 AI 绘画；LLaMA 开源模型供每个人创建自己的 AI ……

这个行业的年薪最高已经涨到了 865k 美元（折合人民币约 621 万），随着人才的涌进，毫无疑问，即将到来的 2024 依旧会充满 AI 带来的惊喜。

不少企业将 AI 看做赋能的新帮手，期待着新业态的到来。但顶尖科技的发展不该掺杂虚假的宣传手段，AI 大模型的发展之路也不应被喧闹的口水战淹没。大模型厂商们还是要回归技术，探索创新，让实践跟上理论，让应用稳稳落地。