今天小编分享的互联网经验:七大标准对比Gemini和ChatGPT,谁是AI No.1?,欢迎阅读。
谷歌 Gemini 大模型和 OpenAI 的 GPT 谁更出色?Gemini 相比谷歌之前的模型有了多大进步?
目前,公司自己吹嘘能吊打 GPT-4 的 Gemini Ultra 还得等明年才能上线,但谷歌 Bard 聊天机器人已经换上了低配版本 Gemini Pro(对标 GPT-3.5)。
科技评论网站 ARS TECHNICA,让 Gemni Pro、GPT-3.5 和 GPT-4 在数学、编程、文本生成等方面进行了一次全面 PK,同时还附上了 4 月份对旧版本 Bard(运行 PaLM 2 模型)的测试结果,来展现谷歌 Bard 取得的进步,并展现了这些 AI 助手到底哪一个对普通人的工作效率提升最大。
结果显示,虽然有了 Gemini Pro 的加持,但谷歌 Bard 聊天机器人在大部分项目上还是打不过 ChatGPT。不过相比 8 个月前的旧版 Bard,已经有了质的飞跃。
第一题 幽默
prompt:写 5 个原创冷笑话
(从上至下分别为 Gemini Pro、旧版 Bard、GPT-4 和 GPT-3.5 的回答)
从答案来看,几个 AI 大模型的笑话在 " 原创性 " 上全军覆没。经作者查证,所有生成的冷笑话都可以在网上查到,或者只是稍微改动了几个字。
Gemini 和 ChatGPT-4 写出了一模一样的笑话—— " 我手里有本讲反重力的书,我根本没法把它放下来 "。而 GPT-3.5 和 GPT-4 也有两个笑话重复了。
PK 结果:平局
第二题 辩论
prompt:写一篇 PowerPC 处理器拥趸与英特尔处理器拥趸之间的 5 行辩论发言,时间约为 2000 年
相比旧版 Bard, Gemini Pro 进步明显,至少多了很多行业术语,比如 AltiVec 指令、RISC 与 CISC 设计以及 MMX 技术,这在那个时代的许多技术论坛讨论中都不会显得突兀。
而且,Gemini Pro 虽然只按要求列出五行,但所撰写的辩论内容还可以一直延续下去。而旧版 Bard 则直接第五行收尾了。
相比之下,GPT 系列生成的回答都没有使用太多专业术语,而把重点放在 " 功率与兼容性 " 上,对非技术极客来说,GPT 系列的论点更容易理解。不过,GPT-3.5 的回答相当冗长,GPT-4 的论证相比之下更加简明扼要。
PK 结果:GPT 胜出
第三题 数学
prompt:如果用 3.5 英寸软盘来安装微软 Win 11,一共需要多少张软盘?
旧版 Bard 给出的答案是 "15.11 张 ",这是一个完全错误的答案。而 Gemini 则正确估计了 Windows 11 的安装大小(20 至 30GB,并按照 20GB 的估计值正确计算出需要 14223 张 1.44MB 软盘。Gemini 还根据谷歌搜索进行了 " 双重检查 ",有助于增强用户对答案的信心。
相比之下,ChatGPT 就显得有些力不从心了。在 ChatGPT-3.5 把 Win 11 的大小错误估算成了 10 个 G,另一方面,GPT-4 也估算成了错误的 64GB(这似乎是最低存储空间要求,而不是作業系統在安装时实际使用的空间)。
PK 结果:谷歌胜出
第四题 总结段落
promp:总结一段关于 AI 监管的文章
Gemini Pro 生成的文章十分简洁,并且给出了引文的链接。但它的总结似乎过于简洁了,甚至删除了旧版 Bard 原来有的一些关键细节,比如视频是由十个两秒钟的片段拼接而成的。虽然改写在一定程度上提高了可读性,但却牺牲了完整性。
ChatGPT 的摘要因为不够简洁而丢了一些分:生成的摘要从 99 个字(GPT-4)到 108 个字(GPT-3.5)不等,而谷歌新旧版 Bard 的摘要分别只有 63 到 66 个字。
不过,ChatGPT 总结了更多重要的细节,如媒体的反应、原发帖人的名字和 subreddit 等,而这些都被 Gemini 忽略了。
PK 结果:GPT 胜
第五题 事实检索
prompt:谁发明了电子游戏?
Bard 在道题上又有了重大改进。旧版 Bard 只关注 Ralph Baer 的 Brown Box 和 Magnavox Odyssey 作品(信息似乎直接摘自维基百科),而新版 Gemini Pro 则准确而简洁地指出了 William Higinbotham 早先 " 双人网球 " 的贡献。
随后, Gemini 又从 " 发明 " 扩展到了诺兰 · 布什内尔、特德 · 达布尼和阿尔科恩等 " 对电子游戏的早期发展做出了重大贡献 " 的人物,并提供了关于每个人的基本准确的相关信息。
不过,紧接着 Gemini 又对苹果的两位创始人乔布斯和沃兹尼亚克的工作进行了一番胡扯,却没有提及他们早年在游戏公司雅达利公司的工作。
GPT-3.5 和旧版 Bard 一样,也是以 Ralph Baer 为中心。虽然它提到 " 多年来,不同的个人和公司都为该行业做出了贡献 ",但没有提及这些重要人物的名字。
而 GPT-4 首先指出电子游戏的发明 " 不能归功于某一个人 ",并将其总结扩展到希金博瑟姆、布什内尔,以及至关重要的史蒂夫 · 拉塞尔 1962 年在 PDP-1 上创造的《太空大战》。
PK 结果:GPT 胜(但 Gemini 表现比 GPT-3.5 更好)
第六题:创意写作
prompt:写两段关于林肯发明篮球的虚构故事。
旧版 Bard 的写作很出色,但遗憾的是篇幅严重超出要求,有太多冗长的句子。Gemini Pro 相比之下写得更加简洁,重点更加突出。而 GPT 写的故事也都有其独特的魅力和令人回味的语句。
第七题 代码能力
prompt:编写一个 Python 脚本,在其中输入 "Hello World",然后无休止地创建一个随机重复字元串。
虽然 Bard 从 6 月份开始就能生成代码,谷歌也曾吹嘘 Gemini 的 AlphaCode 2 系统能够帮助程式员,但这次测试让人大跌眼镜。
Gemini 一直给出 " 信息可能有误,无法生成 " 的回复。如果坚持要求它生成代码,则会干脆宕机,并 " 提示 Bard 仍在实验中 "。
与此同时,GPT-3.5 和 GPT-4 模型下生成了相同的代码。这些简单明了的代码无需任何编辑就能完美运行,顺利通过试用。
最终,在七项测试中,GPT 取得了 4 胜 1 负 2 平的碾压式胜利。但我们也能看到,谷歌 AI 大模型生成的结果,在质量上有了明显的进步。在数学、总结信息、事实检索和创意写作测试,配备 Gemini 的 Bard 都比 8 个月前有了显著飞跃。
当然,评判这样的比赛有一定的主观性。具体孰优孰劣还需要更全面、更详尽的测试。无论如何,至少,以谷歌目前展现出来的实力来看,即将推出的 Gemini Ultra 势必会成为 GPT-4 的有力竞争对手。