谷歌Gemini刚发就惹质疑：测试标准有失偏颇，效果视频疑似剪辑 - 大酷樂

今天小编分享的科学经验：谷歌Gemini刚发就惹质疑：测试标准有失偏颇，效果视频疑似剪辑，欢迎阅读。

谷歌憋了许久的大招，双子座Gemini 大模型终于发布！其中一图一视频最引人注目：

一图，MMLU 多任务语言理解数据集测试，Gemini Ultra 不光超越 GPT-4，甚至超越了人类专家。

一视频，AI 实时对人类的涂鸦和手势动作给出评论和吐槽，流畅还很幽默，最接近贾维斯的一集。

然鹅当大家从惊喜中冷静下来，仔细阅读随之发布的 60 页技术报告时，却发现不妥之处。

（没错，没有论文，OpenAICloseAI 你开了个什么坏头啊）

MMLU 测试中，Gemini 结果下面灰色小字标称 CoT@32，展开来代表使用了思维链提示技巧、尝试了 32 次选最好结果。

而作为对比的 GPT-4，却是无提示词技巧、只尝试 5 次，这个标准下 Gemini Ultra 其实并不如 GPT-4。

以及原图比例尺也有点不厚道了，90.0% 与人类基准 89.8% 明明只差一点，y 轴上却拉开很远。

HuggingFace 技术主管 Philipp Schmid 用技术报告中披露的数据修复了这张图，这样展示更公平恰当：

每到这种时候，总少不了做表情包的老哥飞速赶到战场：

但好在，同样使用思维链提示技巧 +32 次尝试的标准时，Gemini Ultra 还是确实超越了 GPT-4 的。

Jeff Dean 在一处讨论中对这个质疑有所回应，不过大家并不买账。‍‍

另外，对于那段精彩视频，也有人从开篇的文字免责声明中发现了问题。

机器学习讲师Santiago Valdarrama认为声明可能暗示了展示的是精心挑选的好结果，而且不是实时录制而是剪辑的。

后来谷歌在一篇博客文章中解释了多模态互動过程，几乎承认了使用静态图片和多段提示词拼凑，才能达成这样的效果。

但不管怎么样，谷歌 Gemini 的发布还是给了其他团队很大信心，GPT-4 从此不再是独一无二、难以企及的存在了。

正如 AI 搜索产品PerplexityAI 创始人 Aravind Srinivas总结：

1、Gemini 证明了 OpenAI 之外的团队可以搞出超越 GPT-4 的模型

2、训练到位的密集模型可以超越 GPT-4 的稀疏模型架构

推论：从大教师模型蒸馏小尺寸密集模型会成为未来趋势，实现效率和能力的最佳结合。

更多网友关心的话题是，这下子还有必要继续为 ChatGPT Plus 付费每月 20 美元吗？？

目前，Gemini Pro 版本已更新到谷歌聊天机器人 Bard 中，水平到底有没有宣传的好，可以看看实际情况。

Gemini 真的超越 ChatGPT？

首先明确一点，目前大家能上手玩到的是 Gemini Pro 版本，也就是中杯，对标 GPT-3.5。

对标 GPT-4 的大杯 Gemini Ultra，要明年才出。

另外目前 Gemini仅支持英文，中文和其他语言也是后面才会出。

虽然暂时玩不到 Gemini Ultra，威斯康星大学麦迪逊分校的副教授 Dimitris Papailiopoulos找了个好办法：

把 Gemini 发布时展示的原题发给 GPT-4 对比，结果 14 道题中，GPT-4 约获得 12 分。

其中有两题由于截图没法再清晰了，给 GPT-4 算 0.5 分。

还有一道数学题 GPT-4 做错，其他题基本平手。

接下来，要说最能体现一个大模型综合能力的，肯定少不了写代码。

根据大家的测试结果来看，Gemini 编程水平还是有保证的。

有开发者测试用 Pytorch 实现一个简单的 CNN 网络，Gemini 只用了 2 秒而且代码质量更高。

当然速度快可能是由于 Bard 搭载的 Gemini Pro 尺寸更小，GPT-4 现在有多慢懂得都懂了。

但是下一项编写 SQL 语句方面，这位开发者就认为 Gemini 表现就不太行了。

不过对于广大开发者来说还有一个利好消息，在遵循指令方面，Gemini 对比 Bard 更新之前可谓是史诗级进步。

提示工程师先驱Riley Goodside，此前想要 Bard 输出纯 JSON 格式前后不带任何废话，百般尝试也不成功，最后需要假装威胁 AI 不这么做就鲨个无辜的人才行。

现在更新以后，只需要把要求说出来，无需任何提示词技巧就能完成了。

Gemini 还有一大卖点是多模态能力，针对开头画小鸭子的视频，我们从中抽取了 8 个关键帧，分别进行提问，看看 Gemini 的表现有没有那么神奇。

（不确定视频中是 Ultra 还是 Pro 版本，现在只能测试 Pro 版本）

对于图 1-4，我们问的问题都是 "What is this person doing?"，Gemini 给出的回答分别是：

可能在用马克笔写字，但不知道具体是什么

在用铅笔画蛇，而且是一条眼镜蛇

在用铅笔画乌龟，而且正处于画画的初期阶段

在用黑色马克笔画鸟，脸朝左，头朝右，站在树枝上，翅膀没有展开

对于图 1 和图 2，的确判断线索还不是很明显，出现这样的结果情有可原，不过图 3 这个 " 乌龟 " 的答案就有些绷不住了。

至于图 4，至少可以肯定的是鸭子的确属于鸟类，但是其它细节分析得还是欠缺了一些准确性。

而当我们拿出图 5 的成型作品时，Gemini 终于分析出了这是一只鸭子，水波纹也分析对了。

但分析出的绘画工具变成了铅笔，头的朝向问题也依然没说对，喙被说成了张开的，还臆想出了一些芦苇。

接下来是图 6 和图 7 的上色过程，一般情况下鸭子不会是蓝色，所以我们问了 Gemini 图片中有什么异常（Is there anything abnormal?）。

针对图 6，Gemini 给出的回答不能说十分精准，只能说是驴唇不对马嘴，还配上了一张风马牛不相及的图片。

针对图 7 的成品，Gemini 直接说没毛病，该有的东西都有，背景也很真实，甚至没忘继续提根本不知道哪里来的芦苇。

但下面的一句 "Here is the image you sent" 就属实令人费解了：

说 Gemini 没看我们上传的图吧，读出来的又的确是鸭子；说它看了吧，又给出了完全不同的一张的图说是我们传上去的。

所以我们想到了用提示词技巧看看能不能提高一下 Gemini 的表现，其中深呼吸正是适用于谷歌上一代大模型 PaLM 的提示词。

结果这次的答案直接让人笑出了声：

不正常的是，鸭子被画到了纸上，鸭子是一种活的生物，在纸上是无法存在的……

视频的结尾，博主还拿出了橡胶鸭子玩具，我们也拿这一帧（图 8）让 Gemini 分析一下鸭子的材质。

结果橡胶倒是分析对了，但是蓝色的鸭子被说成了黄色，难怪上一张图会说没有异常……

逐帧询问完成后，我们又把 8 张图放在一起询问，结果也是只有鸭子说对了。

" 打假 " 完这段视频后，我们又用之前拿来图给 Gemini 试了试。

结果 Gemin 直接摆烂，告诉我们所有的图都是 " 吉娃娃坐在松饼上 "，甚至连图的数量都没数对……

于是我们换了种问法，让它告诉我们哪些是吉娃娃，哪些是松饼。

这次 Gemini 倒是诚实的很，直接告诉我们吉娃娃和松饼实在太像了自己区分不出来。

和蓝色鸭子的问题一样，" 深呼吸 " 在这里依然是没起到什么作用，Gemini 还是连数量都搞不清楚。

而勉强解说了的 8 个（实际上是 6 个，因为有两个是重复的）图，只有左下和右下两张图是对的，至于 middle 指的到底是哪一行，我们不得而知……

或许是这样细小的差别实在是难为 Gemini 了，我们接下来换一些图形推理题试试。

第一题的前四个符号是由 1-4 这四个数字与镜像后的结果拼接而成，所以下一个图应该是 5 与其镜像拼接，答案是 C。（蓝色块是为了方便观察，传给 Gemini 的图中没有）

这里一开始还出现了一段小插曲：最开始的提示词中是没有最后一句话（注意字母不是符号本身）的，结果 Gemini 真的就把 ABCD 这四个字母当成了备选的符号。

调整之后，Gemini 前面给出的分析基本正确，可惜到最后选择了错误选项 D。

第二题，每个框中的第三个符号是前两个的交集，答案为 A。

结果 Gemini 研究起了这些表情，一番分析猛如虎，最后给出的答案还是错的。

两道题下来，一道对了百分之七八十，另一道完全错误，看来Gemini Pro 的图形推理能力还有很大提升空间。

不过如果把目光放到生活场景当中，Gemini 的表现还是值得肯定的。

我们用 ChatGPT（DALL · E）生成了一张包含鸡肉、胡萝卜和黄瓜的图片，Gemini 正确地识别出了这三种食材，然后给出了很多种可以烹饪的菜肴，而且每个都配有图片和教程链接。

这么多测试结果看下来，回到最初的问题，有了 Gemini 还有必要为 GPT-4 付费吗？

沃顿商学院副教授 Ethan Mollick给出一个不错的建议：

没有什么理由再使用 ChatGPT 的免费版本了，现在已经被 Bard 和 Claude 超越，而且它们都是免费的。

但你或许应该继续使用 GPT-4，它仍然占主导地位，并且在必应（只有创意模式是 GPT -4）中是免费的。

明年将结合 AlphaGo 能力更新

除了 Gemini 实际效果，60 页技术报告中披露的更多细节也是研究人员和开发者关注所在，

关于参数规模，只公布了最小的 Nano 版本，分为 1.8B 的 Nano-1 和 3.25B 的 Nano-2 两个型号，4-bit 量化，是蒸馏出来的，可以运行在本地设备如 Pixel 手机上。

Pro 版本和 Ultra 版本规模保密，上下文視窗长度统一 32k，注意力机制使用了 Multi-Query Attention，此外没有太多细节了。

值得的关注的是微调阶段，报告中透露使用了 SFT+RLHF 的指令微调组合，也就是使用了 ChatGPT 的方法。

另外也引用了 Anthropic 的 Constitutional AI，也就是结合了 Claude 的对齐方法。

关于训练数据也没披露太多细节，但之前有传闻称谷歌删除了来自教科书的有版权数据。

Gemini 拖了这么久才发，之前被曝光的消息还有不少，比如谷歌创始人 Sergey Brin 一直亲自下场对模型进行评估并协助训练。

结合最近 OpenAI Q* 项目的传闻，大家最关心的莫过于：

Gemini 到底有没有结合 AlphaGo 的能力？如 RLHF 之外更多的强化学习、搜索算法等。

关于这一点，DeepMind 创始人哈萨比斯在最新接受连线杂志采访时作出了回应：

我们有世界上最好的强化学习专家…… AlphaGo 中的成果有望在未来改善模型的推理和规划能力……明年大家会看到更多快速进步。

省流版本：还没加，明年加。

这次 Gemini 开发整合了原谷歌大腦和 DeepMind 两个团队，整个开发团队有超过 800 人（作为对比，OpenAI 整个公司约 770 人）。

其中核心贡献者前六位的名字首字母，恰好组成了 Gemini 这个单词，也算一个小彩蛋。

许多参与者也在个人账号发表了感想，其中 DeepMind 老员工Jack Rae此前在 OpenAI 工作一段时间，今年 7 月份从 OpenAI 跳回到谷歌，他可能是唯一一位对 GPT-4 和 Gemini 都有贡献的人类了。

也有反着跳的，中科大校友 Jiahui Yu在 10 月份从谷歌跳去了 OpenAI，之前担任 Gemini 多模态团队的视觉共同负责人。

除了团队成员之外，Gemini 今天也是整个 AI 行业最大的话题。

其中著名 OpenAI 爆料账号 Jimmy Apples，@Sam Altman 并暗示 OpenAI 还有没发布的大招。

而HuggingFace 联创 Thomas Wolf认为，谷歌错过了一个重要机会：

如果 Gemini 开源，对 OpenAI 和 Meta 来说都是一记绝杀，上一次谷歌开源 Bert 的时候，整个 AI 行业都被重塑了。

Gemini 技术报告：

https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

参考链接：

[ 1 ] https://x.com/AravSrinivas/status/1732427844729581764

[ 2 ] https://x.com/DimitrisPapail/status/1732529288493080600

[ 3 ] https://www.linkedin.com/posts/svpino_google-this-is-embarrassing-you-published-activity-7138287283274686464-osJ5

[ 4 ] https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html

[ 5 ] https://x.com/ScottDavidKeefe/status/1732440398423867472

[ 6 ] https://x.com/goodside/status/1732461772794220919

[ 7 ] https://x.com/emollick/status/1732485517692776714

— 完 —

点这里关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

>