萬眾期待的Gemini大模型：比GPT-4強，但強的不多？ - 大酷樂

今天小編分享的互聯網經驗：萬眾期待的Gemini大模型：比GPT-4強，但強的不多？，歡迎閲讀。

谷歌憋了好幾個月的大招、人類迄今為止最強大的 AI 模型—— Gemini，終于發布了。按照谷歌的説法，它可以像人類一樣理解我們周圍的世界，處理代碼、文字、音頻、影像和視頻通通不在話下。Google DeepMind 團隊稱，Gemini 在 32 項基準性能測試中的 30 項上超過了 GPT-4。

然而，多位科技分析人士認為，雖然 Gemini 的性能的确優于現有的多模态模型，但它和 GPT-4 的差距并沒有那麼誇張。從谷歌放出的演示視頻來看，很少有什麼我們在過去一年的 AI 炒作狂潮裏沒見過的東西。

如果以谷歌的算力資源、研發能力和豐富的數據都僅能做到勉強擊敗 GPT4，更大問題在于，Gemini 或許就是以人類目前的技術，能夠打造的大模型的上限了。

比 GPT-4 強，但強得不多

根據谷歌放出的演示視頻，Gemini 是玩 " 你畫我猜 " 的一把好手，不僅可以準确地描述測試者在紙上畫出的圖形，還能根據測試者畫出的輪廓猜測她繪制的是什麼東西。

在另一個例子中，測試者給 Gemini 展示了一張煎蛋卷在平底鍋中烹饪的圖片，并用語音詢問煎蛋卷是否已經煮熟，Gemini 也用語音回答道：" 還沒有煮熟，因為雞蛋還是液态的。"

看起來很新鮮，但 Gemini 真的如谷歌所言的全方位超越 GPT-4 嗎？

不見得。

基準的 MMLU 測試用于衡量 AI 模型在文本和影像的任務上的表現，包括閲讀理解、大學數學以及物理、經濟學和社會科學中的多項選擇測驗。谷歌 CEO 劈柴表示，在 MMLU 測試中，Gemini 全面擊敗 GPT4。對于純文本問題，Gemini 得分為 90，人類專家得分為 89。GPT-4 得分為 86；對于多模态問題，Gemini 得分為 59，而 GPT-4 得分為 57。

聖達菲研究所的 AI 研究員 Melanie Mitchell 對媒體表示，Gemini 基準測試的表現令人印象深刻，這的确説明 Gemini 是一個非常復雜的人工智能系統，但她指出，自己并沒有明顯感受到 Gemini 和 GPT-4 在實際能力上的差距。

Mitchell 還指出，Gemini 在語言和代碼基準測試上的表現要比在影像和視頻上表現更好：

" 多模态基礎模型仍然有很長的路要走，才能在許多任務裏任務大範圍、可靠地應用。"

斯坦福大學基礎模型研究中心主任 Percy Liang 也對媒體表示，雖然 Gemini 具有良好的基準分數，但由于我們不知道訓練數據中的内容，很難知道如何解釋這些數字。

Google DeepMind 還稱，在人類測試者的幫助下，Gemini 減輕了幻覺出現的頻率，在回答問題時已經變得更加準确，在被要求時可以給出信源，并且不會再遇到難回答的問題時胡編亂造。

不過，這一點同樣需要谷歌公開更多數據，否則目前也很難去驗證。

倉促上陣

深度學習教父傑夫 · 辛頓（Geoffrey Hinton）在四月份離開谷歌時對媒體表示

" 谷歌一直非常謹慎地向公眾發布 AI 產品，可能發生的壞事太多了，谷歌不想毀了自己的聲譽。面對看似不值得信賴或無法銷售的技術，谷歌采取了謹慎的态度，因此錯過了更關鍵的機會。"

可能正是因為意識到了這一點，所以谷歌在推動 Gemini 上線時非常着急。

Gemini 最強大的滿血版 Gemini Ultra，還需要等待幾個月才能和公眾見面。谷歌稱，Ultra 版目前只會提供給部分客户、開發者、合作夥伴以及安全與責任專家使用。

有分析人士指出，谷歌甚至自己也不了解 Gemini Ultra 的所有新功能，也沒有為 Gemini 制定出貨币化戰略。考慮到人工智能模型訓練和推理的高昂成本，谷歌可能需要很長時間才能想出盈利策略。

會不會是谷歌的營銷策略導致了今天產品發布的失敗？也許是吧。又或者，打造最先進的生成式人工智能模型真的很難——即使你重組了整個人工智能部門來加快進程，效果可能也不盡如人意。

熱門排行

奧特曼還在抱娃，GPT-4.5已經被網友開噴了嬴覓晴 | 2025-03-01
為騎手繳社保，劉強東圖什麼？郜萌運 | 2025-03-01
陳小藝：與丈夫分居多年不離婚，還頻傳绯聞，她到惠惠君 | 2025-03-01
濃顏系典範，合作7次，高偉光迪麗熱巴讓晉江娛繁綺文 | 2025-03-01
iPhone 16e上手體驗：“刀法”過于精湛衛青柏 | 2025-03-01
老婆敗光20億家產，狂開演唱會是為了還債？張學袁曼雁 | 2025-03-01
歌手方大同因病去世，年僅41歲賁芳蕤 | 2025-03-01
奧迪關閉布魯塞爾工廠，數千員工面臨失業郟君昊 | 2025-03-01
銷冠再出招！智界R7推出三年免息政策：最高省1. 郜萌運 | 2025-03-01
财政社保就業支出首次超過教育支出，老齡化是謝飛揚 | 2025-03-01
高露現身上海虹橋機場黑色外套點綴亮色愛惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：處理器更新為天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懶癌”發病率上升，定期體檢别忽視幸聽楓 | 2023-05-02
宋慧喬獲百想視後韓素希發圖手動加愛心表賁芳蕤 | 2023-05-02
十年了，他們終于要HE！惠惠君 | 2023-05-07
曹操墓，裏面都有啥？衛青柏 | 2023-05-02
中央部署經濟工作，釋放5大信号郜萌運 | 2023-05-02
陳自瑤抱病為愛女做蛋糕慶生，王浩信點贊沒露賁芳蕤 | 2023-05-02
高德上線手機彎道會車預警功能習又夏 | 2023-05-02
高端國產車：軍車血統，目前電動車越野的“天花謝飛揚 | 2023-05-02
等比例長大的童星，李蘭迪算一個郟君昊 | 2023-05-02
這些被抓來做實驗的流浪狗，最終拯救了無數糖集玲琳 | 2023-05-02
《雲襄傳》終于抬上來啦，男O女A讓人好上頭！集玲琳 | 2023-05-02
21家A股遊戲公司2022年收入651億今年“遊衛青柏 | 2023-05-04
信用風險釋放趨緩，結構性風險需重點關注 — 袁曼雁 | 2023-05-02
與周立波夫婦鬧糾紛成老賴，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
普京籤署總統令，批準對俄刑法典相關法條的修集玲琳 | 2023-05-02
中銀證券給予南京銀行增持評級袁曼雁 | 2023-05-03
解除資格！停止一切合作佼昌翰 | 2023-05-02
前董事長被免，天山生物全面進入“中植系”時惠惠君 | 2023-05-02
3699起聯想小新mini主機上架 13代酷睿标壓習又夏 | 2023-05-05
狂吼11次“讓一下”！交警咆哮開道嘶吼到吐寸飛蘭 | 2023-05-03
瘋成這樣，怎麼還能被全網吹捧？郜萌運 | 2023-05-02
摩根大通收購美國第一共和銀行謝飛揚 | 2023-05-02
台劇赢麻了，又來一部8.9 衛青柏 | 2023-05-02
下降45分，上漲35分！34所自劃線院校復試分數線袁曼雁 | 2023-05-07
事關農村土地承包和農民權益，《農村土地承包郟君昊 | 2023-05-02
"三高"已盯上青少年，做好這件事是關鍵習又夏 | 2023-05-05
五一檔沒一個能打的集玲琳 | 2023-05-05
恐怖韓劇下神壇，這次膽小可入袁曼雁 | 2023-05-05
這劇是不是用ChatGPT寫的呀？惠惠君 | 2023-05-02
性騷擾慣犯，滾出娛樂圈謝飛揚 | 2023-05-05
48歲何炅自曝已老花眼，黃磊睡前認老，《向往的佼昌翰 | 2023-05-02
200户連夜疏散，原因讓人憤怒！“損失超一億”，袁曼雁 | 2023-05-03
一個《長月燼明》倒了，《狐妖》《長相思》《惠惠君 | 2023-05-02
當年輕人開始不随份子錢袁曼雁 | 2023-05-02
張天愛假期曬“酷”存照卷發披肩穿黑色吊嬴覓晴 | 2023-05-02
畢滢用8年時間成功逼宮？曾被傳已婚生子的她，幸聽楓 | 2023-05-03
宋慧喬獲視後首次曬照，拿獎杯笑容温柔郜萌運 | 2023-05-02