万众期待的Gemini大模型：比GPT-4强，但强的不多？ - 大酷樂

今天小编分享的互联网经验：万众期待的Gemini大模型：比GPT-4强，但强的不多？，欢迎阅读。

谷歌憋了好几个月的大招、人类迄今为止最强大的 AI 模型—— Gemini，终于发布了。按照谷歌的说法，它可以像人类一样理解我们周围的世界，处理代码、文字、音频、影像和视频通通不在话下。Google DeepMind 团队称，Gemini 在 32 项基准性能测试中的 30 项上超过了 GPT-4。

然而，多位科技分析人士认为，虽然 Gemini 的性能的确优于现有的多模态模型，但它和 GPT-4 的差距并没有那么夸张。从谷歌放出的演示视频来看，很少有什么我们在过去一年的 AI 炒作狂潮里没见过的东西。

如果以谷歌的算力资源、研发能力和丰富的数据都仅能做到勉强击败 GPT4，更大问题在于，Gemini 或许就是以人类目前的技术，能够打造的大模型的上限了。

比 GPT-4 强，但强得不多

根据谷歌放出的演示视频，Gemini 是玩 " 你画我猜 " 的一把好手，不仅可以准确地描述测试者在纸上画出的图形，还能根据测试者画出的轮廓猜测她绘制的是什么东西。

在另一个例子中，测试者给 Gemini 展示了一张煎蛋卷在平底锅中烹饪的图片，并用语音询问煎蛋卷是否已经煮熟，Gemini 也用语音回答道：" 还没有煮熟，因为鸡蛋还是液态的。"

看起来很新鲜，但 Gemini 真的如谷歌所言的全方位超越 GPT-4 吗？

不见得。

基准的 MMLU 测试用于衡量 AI 模型在文本和影像的任务上的表现，包括阅读理解、大学数学以及物理、经济学和社会科学中的多项选择测验。谷歌 CEO 劈柴表示，在 MMLU 测试中，Gemini 全面击败 GPT4。对于纯文本问题，Gemini 得分为 90，人类专家得分为 89。GPT-4 得分为 86；对于多模态问题，Gemini 得分为 59，而 GPT-4 得分为 57。

圣达菲研究所的 AI 研究员 Melanie Mitchell 对媒体表示，Gemini 基准测试的表现令人印象深刻，这的确说明 Gemini 是一个非常复杂的人工智能系统，但她指出，自己并没有明显感受到 Gemini 和 GPT-4 在实际能力上的差距。

Mitchell 还指出，Gemini 在语言和代码基准测试上的表现要比在影像和视频上表现更好：

" 多模态基础模型仍然有很长的路要走，才能在许多任务里任务大范围、可靠地应用。"

斯坦福大学基础模型研究中心主任 Percy Liang 也对媒体表示，虽然 Gemini 具有良好的基准分数，但由于我们不知道训练数据中的内容，很难知道如何解释这些数字。

Google DeepMind 还称，在人类测试者的帮助下，Gemini 减轻了幻觉出现的频率，在回答问题时已经变得更加准确，在被要求时可以给出信源，并且不会再遇到难回答的问题时胡编乱造。

不过，这一点同样需要谷歌公开更多数据，否则目前也很难去验证。

仓促上阵

深度学习教父杰夫 · 辛顿（Geoffrey Hinton）在四月份离开谷歌时对媒体表示

" 谷歌一直非常谨慎地向公众发布 AI 产品，可能发生的坏事太多了，谷歌不想毁了自己的声誉。面对看似不值得信赖或无法销售的技术，谷歌采取了谨慎的态度，因此错过了更关键的机会。"

可能正是因为意识到了这一点，所以谷歌在推动 Gemini 上线时非常着急。

Gemini 最强大的满血版 Gemini Ultra，还需要等待几个月才能和公众见面。谷歌称，Ultra 版目前只会提供给部分客户、开发者、合作伙伴以及安全与责任专家使用。

有分析人士指出，谷歌甚至自己也不了解 Gemini Ultra 的所有新功能，也没有为 Gemini 制定出货币化战略。考虑到人工智能模型训练和推理的高昂成本，谷歌可能需要很长时间才能想出盈利策略。

会不会是谷歌的营销策略导致了今天产品发布的失败？也许是吧。又或者，打造最先进的生成式人工智能模型真的很难——即使你重组了整个人工智能部门来加快进程，效果可能也不尽如人意。

熱門排行

奥特曼还在抱娃，GPT-4.5已经被网友开喷了嬴覓晴 | 2025-03-01
为骑手缴社保，刘强东图什么？郜萌運 | 2025-03-01
陈小艺：与丈夫分居多年不离婚，还频传绯闻，她到惠惠君 | 2025-03-01
浓颜系典范，合作7次，高伟光迪丽热巴让晋江娱繁綺文 | 2025-03-01
iPhone 16e上手体验：“刀法”过于精湛衛青柏 | 2025-03-01
老婆败光20亿家产，狂开演唱会是为了还债？张学袁曼雁 | 2025-03-01
歌手方大同因病去世，年仅41岁賁芳蕤 | 2025-03-01
奥迪关闭布鲁塞尔工厂，数千员工面临失业郟君昊 | 2025-03-01
销冠再出招！智界R7推出三年免息政策：最高省1. 郜萌運 | 2025-03-01
财政社保就业支出首次超过教育支出，老龄化是謝飛揚 | 2025-03-01
高露现身上海虹桥机场黑色外套点缀亮色爱惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：处理器更新为天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懒癌”发病率上升，定期体检别忽视幸聽楓 | 2023-05-02
宋慧乔获百想视后韩素希发图手动加爱心表賁芳蕤 | 2023-05-02
十年了，他们终于要HE！惠惠君 | 2023-05-07
曹操墓，里面都有啥？衛青柏 | 2023-05-02
中央部署经济工作，释放5大信号郜萌運 | 2023-05-02
陈自瑶抱病为爱女做蛋糕庆生，王浩信点赞没露賁芳蕤 | 2023-05-02
高德上线手机弯道会车预警功能習又夏 | 2023-05-02
高端国产车：军车血统，目前电动车越野的“天花謝飛揚 | 2023-05-02
等比例长大的童星，李兰迪算一个郟君昊 | 2023-05-02
这些被抓来做实验的流浪狗，最终拯救了无数糖集玲琳 | 2023-05-02
《云襄传》终于抬上来啦，男O女A让人好上头！集玲琳 | 2023-05-02
21家A股游戏公司2022年收入651亿今年“游衛青柏 | 2023-05-04
信用风险释放趋缓，结构性风险需重点关注 — 袁曼雁 | 2023-05-02
与周立波夫妇闹纠纷成老赖，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
普京签署总统令，批准对俄刑法典相关法条的修集玲琳 | 2023-05-02
中银证券给予南京银行增持评级袁曼雁 | 2023-05-03
解除资格！停止一切合作佼昌翰 | 2023-05-02
前董事长被免，天山生物全面进入“中植系”时惠惠君 | 2023-05-02
3699起联想小新mini主机上架 13代酷睿标压習又夏 | 2023-05-05
狂吼11次“让一下”！交警咆哮开道嘶吼到吐寸飛蘭 | 2023-05-03
疯成这样，怎么还能被全网吹捧？郜萌運 | 2023-05-02
摩根大通收购美国第一共和银行謝飛揚 | 2023-05-02
台剧赢麻了，又来一部8.9 衛青柏 | 2023-05-02
下降45分，上涨35分！34所自划线院校复试分数线袁曼雁 | 2023-05-07
事关农村土地承包和农民权益，《农村土地承包郟君昊 | 2023-05-02
"三高"已盯上青少年，做好这件事是关键習又夏 | 2023-05-05
五一档没一个能打的集玲琳 | 2023-05-05
恐怖韩剧下神坛，这次胆小可入袁曼雁 | 2023-05-05
这剧是不是用ChatGPT写的呀？惠惠君 | 2023-05-02
性骚扰惯犯，滚出娱乐圈謝飛揚 | 2023-05-05
48岁何炅自曝已老花眼，黄磊睡前认老，《向往的佼昌翰 | 2023-05-02
200户连夜疏散，原因让人愤怒！“损失超一亿”，袁曼雁 | 2023-05-03
一个《长月烬明》倒了，《狐妖》《长相思》《惠惠君 | 2023-05-02
当年轻人开始不随份子钱袁曼雁 | 2023-05-02
张天爱假期晒“酷”存照卷发披肩穿黑色吊嬴覓晴 | 2023-05-02
毕滢用8年时间成功逼宫？曾被传已婚生子的她，幸聽楓 | 2023-05-03
宋慧乔获视后首次晒照，拿奖杯笑容温柔郜萌運 | 2023-05-02