今天小编分享的科学经验:谷歌Gemini刚发就惹质疑:测试标准有失偏颇,效果视频疑似剪辑,欢迎阅读。
谷歌憋了许久的大招,双子座Gemini 大模型终于发布!其中一图一视频最引人注目:
一图,MMLU 多任务语言理解数据集测试,Gemini Ultra 不光超越 GPT-4,甚至超越了人类专家。
一视频,AI 实时对人类的涂鸦和手势动作给出评论和吐槽,流畅还很幽默,最接近贾维斯的一集。
然鹅当大家从惊喜中冷静下来,仔细阅读随之发布的 60 页技术报告时,却发现不妥之处。
(没错,没有论文,OpenAICloseAI 你开了个什么坏头啊)
MMLU 测试中,Gemini 结果下面灰色小字标称 CoT@32,展开来代表使用了思维链提示技巧、尝试了 32 次选最好结果。
而作为对比的 GPT-4,却是无提示词技巧、只尝试 5 次,这个标准下 Gemini Ultra 其实并不如 GPT-4。
以及原图比例尺也有点不厚道了,90.0% 与人类基准 89.8% 明明只差一点,y 轴上却拉开很远。
HuggingFace 技术主管 Philipp Schmid 用技术报告中披露的数据修复了这张图,这样展示更公平恰当:
每到这种时候,总少不了做表情包的老哥飞速赶到战场:
但好在,同样使用思维链提示技巧 +32 次尝试的标准时,Gemini Ultra 还是确实超越了 GPT-4 的。
Jeff Dean 在一处讨论中对这个质疑有所回应,不过大家并不买账。
另外,对于那段精彩视频,也有人从开篇的文字免责声明中发现了问题。
机器学习讲师Santiago Valdarrama认为声明可能暗示了展示的是精心挑选的好结果,而且不是实时录制而是剪辑的。
后来谷歌在一篇博客文章中解释了多模态互動过程,几乎承认了使用静态图片和多段提示词拼凑,才能达成这样的效果。
但不管怎么样,谷歌 Gemini 的发布还是给了其他团队很大信心,GPT-4 从此不再是独一无二、难以企及的存在了。
正如 AI 搜索产品PerplexityAI 创始人 Aravind Srinivas总结:
1、Gemini 证明了 OpenAI 之外的团队可以搞出超越 GPT-4 的模型
2、训练到位的密集模型可以超越 GPT-4 的稀疏模型架构
推论:从大教师模型蒸馏小尺寸密集模型会成为未来趋势,实现效率和能力的最佳结合。
更多网友关心的话题是,这下子还有必要继续为 ChatGPT Plus 付费每月 20 美元吗??
目前,Gemini Pro 版本已更新到谷歌聊天机器人 Bard 中,水平到底有没有宣传的好,可以看看实际情况。
Gemini 真的超越 ChatGPT?
首先明确一点,目前大家能上手玩到的是 Gemini Pro 版本,也就是中杯,对标 GPT-3.5。
对标 GPT-4 的大杯 Gemini Ultra,要明年才出。
另外目前 Gemini仅支持英文,中文和其他语言也是后面才会出。
虽然暂时玩不到 Gemini Ultra,威斯康星大学麦迪逊分校的副教授 Dimitris Papailiopoulos找了个好办法:
把 Gemini 发布时展示的原题发给 GPT-4 对比,结果 14 道题中,GPT-4 约获得 12 分。
其中有两题由于截图没法再清晰了,给 GPT-4 算 0.5 分。
还有一道数学题 GPT-4 做错,其他题基本平手。
接下来,要说最能体现一个大模型综合能力的,肯定少不了写代码。
根据大家的测试结果来看,Gemini 编程水平还是有保证的。
有开发者测试用 Pytorch 实现一个简单的 CNN 网络,Gemini 只用了 2 秒而且代码质量更高。
当然速度快可能是由于 Bard 搭载的 Gemini Pro 尺寸更小,GPT-4 现在有多慢懂得都懂了。
但是下一项编写 SQL 语句方面,这位开发者就认为 Gemini 表现就不太行了。
不过对于广大开发者来说还有一个利好消息,在遵循指令方面,Gemini 对比 Bard 更新之前可谓是史诗级进步。
提示工程师先驱Riley Goodside,此前想要 Bard 输出纯 JSON 格式前后不带任何废话,百般尝试也不成功,最后需要假装威胁 AI 不这么做就鲨个无辜的人才行。
现在更新以后,只需要把要求说出来,无需任何提示词技巧就能完成了。
Gemini 还有一大卖点是多模态能力,针对开头画小鸭子的视频,我们从中抽取了 8 个关键帧,分别进行提问,看看 Gemini 的表现有没有那么神奇。
(不确定视频中是 Ultra 还是 Pro 版本,现在只能测试 Pro 版本)
对于图 1-4,我们问的问题都是 "What is this person doing?",Gemini 给出的回答分别是:
可能在用马克笔写字,但不知道具体是什么
在用铅笔画蛇,而且是一条眼镜蛇
在用铅笔画乌龟,而且正处于画画的初期阶段
在用黑色马克笔画鸟,脸朝左,头朝右,站在树枝上,翅膀没有展开
对于图 1 和图 2,的确判断线索还不是很明显,出现这样的结果情有可原,不过图 3 这个 " 乌龟 " 的答案就有些绷不住了。
至于图 4,至少可以肯定的是鸭子的确属于鸟类,但是其它细节分析得还是欠缺了一些准确性。
而当我们拿出图 5 的成型作品时,Gemini 终于分析出了这是一只鸭子,水波纹也分析对了。
但分析出的绘画工具变成了铅笔,头的朝向问题也依然没说对,喙被说成了张开的,还臆想出了一些芦苇。
接下来是图 6 和图 7 的上色过程,一般情况下鸭子不会是蓝色,所以我们问了 Gemini 图片中有什么异常(Is there anything abnormal?)。
针对图 6,Gemini 给出的回答不能说十分精准,只能说是驴唇不对马嘴,还配上了一张风马牛不相及的图片。
针对图 7 的成品,Gemini 直接说没毛病,该有的东西都有,背景也很真实,甚至没忘继续提根本不知道哪里来的芦苇。
但下面的一句 "Here is the image you sent" 就属实令人费解了:
说 Gemini 没看我们上传的图吧,读出来的又的确是鸭子;说它看了吧,又给出了完全不同的一张的图说是我们传上去的。
所以我们想到了用提示词技巧看看能不能提高一下 Gemini 的表现,其中深呼吸正是适用于谷歌上一代大模型 PaLM 的提示词。
结果这次的答案直接让人笑出了声:
不正常的是,鸭子被画到了纸上,鸭子是一种活的生物,在纸上是无法存在的……
视频的结尾,博主还拿出了橡胶鸭子玩具,我们也拿这一帧(图 8)让 Gemini 分析一下鸭子的材质。
结果橡胶倒是分析对了,但是蓝色的鸭子被说成了黄色,难怪上一张图会说没有异常……
逐帧询问完成后,我们又把 8 张图放在一起询问,结果也是只有鸭子说对了。
" 打假 " 完这段视频后,我们又用之前拿来图给 Gemini 试了试。
结果 Gemin 直接摆烂,告诉我们所有的图都是 " 吉娃娃坐在松饼上 ",甚至连图的数量都没数对……
于是我们换了种问法,让它告诉我们哪些是吉娃娃,哪些是松饼。
这次 Gemini 倒是诚实的很,直接告诉我们吉娃娃和松饼实在太像了自己区分不出来。
和蓝色鸭子的问题一样," 深呼吸 " 在这里依然是没起到什么作用,Gemini 还是连数量都搞不清楚。
而勉强解说了的 8 个(实际上是 6 个,因为有两个是重复的)图,只有左下和右下两张图是对的,至于 middle 指的到底是哪一行,我们不得而知……
或许是这样细小的差别实在是难为 Gemini 了,我们接下来换一些图形推理题试试。
第一题的前四个符号是由 1-4 这四个数字与镜像后的结果拼接而成,所以下一个图应该是 5 与其镜像拼接,答案是 C。(蓝色块是为了方便观察,传给 Gemini 的图中没有)
这里一开始还出现了一段小插曲:最开始的提示词中是没有最后一句话(注意字母不是符号本身)的,结果 Gemini 真的就把 ABCD 这四个字母当成了备选的符号。
调整之后,Gemini 前面给出的分析基本正确,可惜到最后选择了错误选项 D。
第二题,每个框中的第三个符号是前两个的交集,答案为 A。
结果 Gemini 研究起了这些表情,一番分析猛如虎,最后给出的答案还是错的。
两道题下来,一道对了百分之七八十,另一道完全错误,看来Gemini Pro 的图形推理能力还有很大提升空间。
不过如果把目光放到生活场景当中,Gemini 的表现还是值得肯定的。
我们用 ChatGPT(DALL · E)生成了一张包含鸡肉、胡萝卜和黄瓜的图片,Gemini 正确地识别出了这三种食材,然后给出了很多种可以烹饪的菜肴,而且每个都配有图片和教程链接。
这么多测试结果看下来,回到最初的问题,有了 Gemini 还有必要为 GPT-4 付费吗?
沃顿商学院副教授 Ethan Mollick给出一个不错的建议:
没有什么理由再使用 ChatGPT 的免费版本了,现在已经被 Bard 和 Claude 超越,而且它们都是免费的。
但你或许应该继续使用 GPT-4,它仍然占主导地位,并且在必应(只有创意模式是 GPT -4)中是免费的。
明年将结合 AlphaGo 能力更新
除了 Gemini 实际效果,60 页技术报告中披露的更多细节也是研究人员和开发者关注所在,
关于参数规模,只公布了最小的 Nano 版本,分为 1.8B 的 Nano-1 和 3.25B 的 Nano-2 两个型号,4-bit 量化,是蒸馏出来的,可以运行在本地设备如 Pixel 手机上。
Pro 版本和 Ultra 版本规模保密,上下文視窗长度统一 32k,注意力机制使用了 Multi-Query Attention,此外没有太多细节了。
值得的关注的是微调阶段,报告中透露使用了 SFT+RLHF 的指令微调组合,也就是使用了 ChatGPT 的方法。
另外也引用了 Anthropic 的 Constitutional AI,也就是结合了 Claude 的对齐方法。
关于训练数据也没披露太多细节,但之前有传闻称谷歌删除了来自教科书的有版权数据。
Gemini 拖了这么久才发,之前被曝光的消息还有不少,比如谷歌创始人 Sergey Brin 一直亲自下场对模型进行评估并协助训练。
结合最近 OpenAI Q* 项目的传闻,大家最关心的莫过于:
Gemini 到底有没有结合 AlphaGo 的能力?如 RLHF 之外更多的强化学习、搜索算法等。
关于这一点,DeepMind 创始人哈萨比斯在最新接受连线杂志采访时作出了回应:
我们有世界上最好的强化学习专家…… AlphaGo 中的成果有望在未来改善模型的推理和规划能力……明年大家会看到更多快速进步。
省流版本:还没加,明年加。
这次 Gemini 开发整合了原谷歌大腦和 DeepMind 两个团队,整个开发团队有超过 800 人(作为对比,OpenAI 整个公司约 770 人)。
其中核心贡献者前六位的名字首字母,恰好组成了 Gemini 这个单词,也算一个小彩蛋。
许多参与者也在个人账号发表了感想,其中 DeepMind 老员工Jack Rae此前在 OpenAI 工作一段时间,今年 7 月份从 OpenAI 跳回到谷歌,他可能是唯一一位对 GPT-4 和 Gemini 都有贡献的人类了。
也有反着跳的,中科大校友 Jiahui Yu在 10 月份从谷歌跳去了 OpenAI,之前担任 Gemini 多模态团队的视觉共同负责人。
除了团队成员之外,Gemini 今天也是整个 AI 行业最大的话题。
其中著名 OpenAI 爆料账号 Jimmy Apples,@Sam Altman 并暗示 OpenAI 还有没发布的大招。
而HuggingFace 联创 Thomas Wolf认为,谷歌错过了一个重要机会:
如果 Gemini 开源,对 OpenAI 和 Meta 来说都是一记绝杀,上一次谷歌开源 Bert 的时候,整个 AI 行业都被重塑了。
Gemini 技术报告:
https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
参考链接:
[ 1 ] https://x.com/AravSrinivas/status/1732427844729581764
[ 2 ] https://x.com/DimitrisPapail/status/1732529288493080600
[ 3 ] https://www.linkedin.com/posts/svpino_google-this-is-embarrassing-you-published-activity-7138287283274686464-osJ5
[ 4 ] https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html
[ 5 ] https://x.com/ScottDavidKeefe/status/1732440398423867472
[ 6 ] https://x.com/goodside/status/1732461772794220919
[ 7 ] https://x.com/emollick/status/1732485517692776714
— 完 —
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
>