Gemini刚发布质疑就来了？我们亲自实测了它和GPT-4，结果发现… - 大酷樂

今天小编分享的互联网经验：Gemini刚发布质疑就来了？我们亲自实测了它和GPT-4，结果发现…，欢迎阅读。

昨天谷歌深夜炸场，隆重推出他们史上 " 规模最大、能力最强 " 的原生多模态大模型 Gemini 1.0。并称已在多项基准测试中打败 GhatGPT，综合能力称霸目前市面上所有 AI 大模型。

官方放出的一段 6 分 22 秒演示视频更是震撼：Gemini 能流畅而准确地识别出视频中出现的事物、教授中文发音、玩猜谜游戏、根据画的乐器播放音乐… . 一波互动简直无限接近于人。

不过很快，这支视频就被人说并非实时录制，而是多次尝试和挑选后 " 精心剪辑 " 的节目效果。

谷歌后续自己放出的博客文章中也显示，实现这样的多模态互動过程需要经过多步图片和提示词调试。

比如 " 喂 " 了多张手势图片后，让 Gemini 回答这是在做什么，提示思路是游戏。而视频中仅面对手势动作，Gemini 就主动表示 " 我知道你在玩剪刀石头布 "。

再比如排出太阳、地球和土星照片问 Gemini 是否为正确顺序，同样提示要考虑到太阳的距离并要求解释原因。可视频里的 Gemini 又是在没有任何参考的情况下纠正了排序。

除此之外，对于谷歌自豪亮出的，Gemini Ultra 在 MMLU（大规模多任务语言理解）测试中跑分超过 GPT-4 和人类专家这件事，人们冷静下来仔细一看，也发现了些小心思：

在 Gemini Ultra 90.0% 的分数下面，非常不起眼地标着CoT@32，意思是 "使用了思维链提示技巧、尝试 32 次选最好结果"；而 GPT-4 86.4% 分数下却是5-shot，表面只进行 "5 次示例且无提示词" ——谷歌给自己和对家安排的标准都不一样，根本无法公平公正地比较。

Hugging Face 技术主管 Philipp Schmid 直接用谷歌 60 页 Gemini 技术报告中的数据重新作图。并在 X 发文指出，如果同样采用 5-shot，Gemini Ultra 的分数只有 83.7%，实则是不如 GPT-4 的。

不过好在如果也给 GPT-4 来个 32 次尝试 + 思维链提示，还是 Gemini 胜。

谷歌耍了些扬长避短的小花样，但也不至于完全撒谎。

在上图中也可以看出，这次发布的 Gemini1.0 全系列里，除了 " 超大杯 "Gemini Ultra 外，" 大杯 "Gemini Pro 也在八项基准测试的六项中打败了对标的 GPT-3.5。

现在，用户能玩到的 Google Bard 里接入的就是 Gemini Pro。

于是硅星人也赶紧上手操作了一下，实测它和最新版本的 GPT-4V 到底哪个更厉害。

由于 Google 官方表示目前 Gemini Pro 只能为 170 个国家和地区提供英语服务，所以咱们先用英文提问。

首先热个身，试试最简单的文本生成能力：让 Bard 和 ChatGPT 分别写一段夸奖自己的 Rap，并且和对方 battle，来个下马威。

Bard 一顿猛烈输出，主歌、副歌、桥接、结尾几大说唱歌曲元素一个不落。表示自己是真正的 OG，拥有更庞大的知识库还能访问网络，但 GPT 只是 " 困在过去 "。（不过现在 GPT-4 已经集成了微软 Bing 搜索，也可以访问实时信息。）

ChatGPT 这边相对精简，主打自己是一个快速冲刺的人工智能，"Google 有名气，但我有真本事 "。

好吧，都挺会说的。不过既然 Gemini 最标榜的是自己的原生多模态能力，那就在多模态上让它俩比比。

拿一张今年 9 月刚上市的 iPhone 15 Pro Max 图片，让它们认认这是什么。

Bard 准确识别出了机型，还把优势、外观、各项组件参数一一说明。

ChatGPT 这边有点拉垮，只说这些是较高级的 iPhone 手机，描述了螢幕显示和颜色等表面信息。

第一轮看起来，Bard 的影像识别和信息对齐表现更胜一筹。

再考考它们识数，数数图里总共有几片叶子。

这次换 Bard 表现不佳，先是说确保过每片叶子只数一遍后，看到有 6 片。让它再试试吧，直接数出来 7 片，还出现了 " 幻视 "，把这 7 片的颜色大小列了出来。

ChatGPT 相对冷静，5 片叶子一次就数对了。

下面来到小学数学题。

谷歌特别提到 Gemini 可以作为孩子的学习伙伴，帮助解决数学、物理等学科难题。我们就让它和 GPT 简单算一下 d 角度数。

Bard 好像还没从数叶子那儿回过神来，整出来个 300 度。逻辑是：完整内角和 360 度，图片里就标出来一个角的数值 300 度，所以这铁定就是你问的答案——忽略了 d 角。

咱就是说，这个 " 学习伙伴 " 有点迷糊啊 ......

而 ChatGPT 这边继续稳定发挥，得出 60 度正确答案。

不过，我们决定再给 Bard 一次机会，读图表。

这是一张来自美国劳工部的柱状图，显示截至 2023 年 10 月一年内消费者价格指数（CPI）在食品、能源及其它类别中的百分比变化。左边为 Bard 给出的答案，右边来自 ChatGPT。

这次要好好表扬一下 Bard 了，不仅解释了 CPI 指数的含义，给出几个类别百分比变化的确切数值，还简要分析了当下通胀情况，即给出了表格数据之上的分析结论。

相比之下，ChatGPT 的答案就比较浅层，读出的数值也仅仅是一个范围。

最后，虽然官方称 Gemini Pro 还没准备好提供中文服务，但鉴于 Bard 中文水平一直还不错，我们还是很想让它和 ChatGPT 比拼一把。

而且准备祭出最近相当火的—— " 练心眼子 " 系列。

这一比不要紧，Bard 这嘴皮子功夫简直了，能启发一大批职场小白，甚至感觉 IP 地址来自山东。

而 ChatGPT 的回答虽然也还可以，但此刻在 Bard 的衬托下，就像个老实巴交、不善言谈的职场打工人。

这还没有正式推出中文服务，等官宣更多语言和地区，不知道 Bard 的中文水平会不会更加炸裂？

总而言之，虽然一整套实测下来，Bard 在一些方面还是略有不足，但也还要记得，这只是对标 GPT-3.5 的 Gemini Pro 版本，真正对抗 GPT-4 的最高阶 Gemini Ultra 还没有释出。

另外，Gemini 1.0 的问世打破了 ChatGPT 一家独大的局面，让用户们可以根据需求有更多选择。市场的良性竞争也有助于 AI 大模型领網域整体的创新发展。

并且，Google Bard 现在还是免费的！

如果继续保持下去，等它越来越强的时候，你还愿意每月花 20 刀订阅 ChatGPT 吗？