今天小编分享的互联网经验:Gemini刚发布质疑就来了?我们亲自实测了它和GPT-4,结果发现…,欢迎阅读。
昨天谷歌深夜炸场,隆重推出他们史上 " 规模最大、能力最强 " 的原生多模态大模型 Gemini 1.0。并称已在多项基准测试中打败 GhatGPT,综合能力称霸目前市面上所有 AI 大模型。
官方放出的一段 6 分 22 秒演示视频更是震撼:Gemini 能流畅而准确地识别出视频中出现的事物、教授中文发音、玩猜谜游戏、根据画的乐器播放音乐… . 一波互动简直无限接近于人。
不过很快,这支视频就被人说并非实时录制,而是多次尝试和挑选后 " 精心剪辑 " 的节目效果。
谷歌后续自己放出的博客文章中也显示,实现这样的多模态互動过程需要经过多步图片和提示词调试。
比如 " 喂 " 了多张手势图片后,让 Gemini 回答这是在做什么,提示思路是游戏。而视频中仅面对手势动作,Gemini 就主动表示 " 我知道你在玩剪刀石头布 "。
再比如排出太阳、地球和土星照片问 Gemini 是否为正确顺序,同样提示要考虑到太阳的距离并要求解释原因。可视频里的 Gemini 又是在没有任何参考的情况下纠正了排序。
除此之外,对于谷歌自豪亮出的,Gemini Ultra 在 MMLU( 大规模多任务语言理解 )测试中跑分超过 GPT-4 和人类专家这件事,人们冷静下来仔细一看,也发现了些小心思:
在 Gemini Ultra 90.0% 的分数下面,非常不起眼地标着CoT@32,意思是 "使用了思维链提示技巧、尝试 32 次选最好结果";而 GPT-4 86.4% 分数下却是5-shot,表面只进行 "5 次示例且无提示词" ——谷歌给自己和对家安排的标准都不一样,根本无法公平公正地比较。
Hugging Face 技术主管 Philipp Schmid 直接用谷歌 60 页 Gemini 技术报告中的数据重新作图。并在 X 发文指出,如果同样采用 5-shot,Gemini Ultra 的分数只有 83.7%,实则是不如 GPT-4 的。
不过好在如果也给 GPT-4 来个 32 次尝试 + 思维链提示,还是 Gemini 胜。
谷歌耍了些扬长避短的小花样,但也不至于完全撒谎。
在上图中也可以看出,这次发布的 Gemini1.0 全系列里,除了 " 超大杯 "Gemini Ultra 外," 大杯 "Gemini Pro 也在八项基准测试的六项中打败了对标的 GPT-3.5。
现在,用户能玩到的 Google Bard 里接入的就是 Gemini Pro。
于是硅星人也赶紧上手操作了一下,实测它和最新版本的 GPT-4V 到底哪个更厉害。
由于 Google 官方表示目前 Gemini Pro 只能为 170 个国家和地区提供英语服务,所以咱们先用英文提问。
首先热个身,试试最简单的文本生成能力:让 Bard 和 ChatGPT 分别写一段夸奖自己的 Rap,并且和对方 battle,来个下马威。
Bard 一顿猛烈输出,主歌、副歌、桥接、结尾几大说唱歌曲元素一个不落。表示自己是真正的 OG,拥有更庞大的知识库还能访问网络,但 GPT 只是 " 困在过去 "。(不过现在 GPT-4 已经集成了微软 Bing 搜索,也可以访问实时信息。)
ChatGPT 这边相对精简,主打自己是一个快速冲刺的人工智能,"Google 有名气,但我有真本事 "。
好吧,都挺会说的。不过既然 Gemini 最标榜的是自己的原生多模态能力,那就在多模态上让它俩比比。
拿一张今年 9 月刚上市的 iPhone 15 Pro Max 图片,让它们认认这是什么。
Bard 准确识别出了机型,还把优势、外观、各项组件参数一一说明。
ChatGPT 这边有点拉垮,只说这些是较高级的 iPhone 手机,描述了螢幕显示和颜色等表面信息。
第一轮看起来,Bard 的影像识别和信息对齐表现更胜一筹。
再考考它们识数,数数图里总共有几片叶子。
这次换 Bard 表现不佳,先是说确保过每片叶子只数一遍后,看到有 6 片。让它再试试吧,直接数出来 7 片,还出现了 " 幻视 ",把这 7 片的颜色大小列了出来。
ChatGPT 相对冷静,5 片叶子一次就数对了。
下面来到小学数学题。
谷歌特别提到 Gemini 可以作为孩子的学习伙伴,帮助解决数学、物理等学科难题。我们就让它和 GPT 简单算一下 d 角度数。
Bard 好像还没从数叶子那儿回过神来,整出来个 300 度。逻辑是:完整内角和 360 度,图片里就标出来一个角的数值 300 度,所以这铁定就是你问的答案——忽略了 d 角。
咱就是说,这个 " 学习伙伴 " 有点迷糊啊 ......
而 ChatGPT 这边继续稳定发挥,得出 60 度正确答案。
不过,我们决定再给 Bard 一次机会,读图表。
这是一张来自美国劳工部的柱状图,显示截至 2023 年 10 月一年内消费者价格指数(CPI)在食品、能源及其它类别中的百分比变化。左边为 Bard 给出的答案,右边来自 ChatGPT。
这次要好好表扬一下 Bard 了,不仅解释了 CPI 指数的含义,给出几个类别百分比变化的确切数值,还简要分析了当下通胀情况,即给出了表格数据之上的分析结论。
相比之下,ChatGPT 的答案就比较浅层,读出的数值也仅仅是一个范围。
最后,虽然官方称 Gemini Pro 还没准备好提供中文服务,但鉴于 Bard 中文水平一直还不错,我们还是很想让它和 ChatGPT 比拼一把。
而且准备祭出最近相当火的—— " 练心眼子 " 系列。
这一比不要紧,Bard 这嘴皮子功夫简直了,能启发一大批职场小白,甚至感觉 IP 地址来自山东。
而 ChatGPT 的回答虽然也还可以,但此刻在 Bard 的衬托下,就像个老实巴交、不善言谈的职场打工人。
这还没有正式推出中文服务,等官宣更多语言和地区,不知道 Bard 的中文水平会不会更加炸裂?
总而言之,虽然一整套实测下来,Bard 在一些方面还是略有不足,但也还要记得,这只是对标 GPT-3.5 的 Gemini Pro 版本,真正对抗 GPT-4 的最高阶 Gemini Ultra 还没有释出。
另外,Gemini 1.0 的问世打破了 ChatGPT 一家独大的局面,让用户们可以根据需求有更多选择。市场的良性竞争也有助于 AI 大模型领網域整体的创新发展。
并且,Google Bard 现在还是免费的!
如果继续保持下去,等它越来越强的时候,你还愿意每月花 20 刀订阅 ChatGPT 吗?