Gemini剛發布質疑就來了？我們親自實測了它和GPT-4，結果發現… - 大酷樂

今天小編分享的互聯網經驗：Gemini剛發布質疑就來了？我們親自實測了它和GPT-4，結果發現…，歡迎閲讀。

昨天谷歌深夜炸場，隆重推出他們史上 " 規模最大、能力最強 " 的原生多模态大模型 Gemini 1.0。并稱已在多項基準測試中打敗 GhatGPT，綜合能力稱霸目前市面上所有 AI 大模型。

官方放出的一段 6 分 22 秒演示視頻更是震撼：Gemini 能流暢而準确地識别出視頻中出現的事物、教授中文發音、玩猜謎遊戲、根據畫的樂器播放音樂… . 一波互動簡直無限接近于人。

不過很快，這支視頻就被人説并非實時錄制，而是多次嘗試和挑選後 " 精心剪輯 " 的節目效果。

谷歌後續自己放出的博客文章中也顯示，實現這樣的多模态互動過程需要經過多步圖片和提示詞調試。

比如 " 喂 " 了多張手勢圖片後，讓 Gemini 回答這是在做什麼，提示思路是遊戲。而視頻中僅面對手勢動作，Gemini 就主動表示 " 我知道你在玩剪刀石頭布 "。

再比如排出太陽、地球和土星照片問 Gemini 是否為正确順序，同樣提示要考慮到太陽的距離并要求解釋原因。可視頻裏的 Gemini 又是在沒有任何參考的情況下糾正了排序。

除此之外，對于谷歌自豪亮出的，Gemini Ultra 在 MMLU（大規模多任務語言理解）測試中跑分超過 GPT-4 和人類專家這件事，人們冷靜下來仔細一看，也發現了些小心思：

在 Gemini Ultra 90.0% 的分數下面，非常不起眼地标着CoT@32，意思是 "使用了思維鏈提示技巧、嘗試 32 次選最好結果"；而 GPT-4 86.4% 分數下卻是5-shot，表面只進行 "5 次示例且無提示詞" ——谷歌給自己和對家安排的标準都不一樣，根本無法公平公正地比較。

Hugging Face 技術主管 Philipp Schmid 直接用谷歌 60 頁 Gemini 技術報告中的數據重新作圖。并在 X 發文指出，如果同樣采用 5-shot，Gemini Ultra 的分數只有 83.7%，實則是不如 GPT-4 的。

不過好在如果也給 GPT-4 來個 32 次嘗試 + 思維鏈提示，還是 Gemini 勝。

谷歌耍了些揚長避短的小花樣，但也不至于完全撒謊。

在上圖中也可以看出，這次發布的 Gemini1.0 全系列裏，除了 " 超大杯 "Gemini Ultra 外，" 大杯 "Gemini Pro 也在八項基準測試的六項中打敗了對标的 GPT-3.5。

現在，用户能玩到的 Google Bard 裏接入的就是 Gemini Pro。

于是硅星人也趕緊上手操作了一下，實測它和最新版本的 GPT-4V 到底哪個更厲害。

由于 Google 官方表示目前 Gemini Pro 只能為 170 個國家和地區提供英語服務，所以咱們先用英文提問。

首先熱個身，試試最簡單的文本生成能力：讓 Bard 和 ChatGPT 分别寫一段誇獎自己的 Rap，并且和對方 battle，來個下馬威。

Bard 一頓猛烈輸出，主歌、副歌、橋接、結尾幾大説唱歌曲元素一個不落。表示自己是真正的 OG，擁有更龐大的知識庫還能訪問網絡，但 GPT 只是 " 困在過去 "。（不過現在 GPT-4 已經集成了微軟 Bing 搜索，也可以訪問實時信息。）

ChatGPT 這邊相對精簡，主打自己是一個快速衝刺的人工智能，"Google 有名氣，但我有真本事 "。

好吧，都挺會説的。不過既然 Gemini 最标榜的是自己的原生多模态能力，那就在多模态上讓它倆比比。

拿一張今年 9 月剛上市的 iPhone 15 Pro Max 圖片，讓它們認認這是什麼。

Bard 準确識别出了機型，還把優勢、外觀、各項組件參數一一説明。

ChatGPT 這邊有點拉垮，只説這些是較高級的 iPhone 手機，描述了螢幕顯示和顏色等表面信息。

第一輪看起來，Bard 的影像識别和信息對齊表現更勝一籌。

再考考它們識數，數數圖裏總共有幾片葉子。

這次換 Bard 表現不佳，先是説确保過每片葉子只數一遍後，看到有 6 片。讓它再試試吧，直接數出來 7 片，還出現了 " 幻視 "，把這 7 片的顏色大小列了出來。

ChatGPT 相對冷靜，5 片葉子一次就數對了。

下面來到小學數學題。

谷歌特别提到 Gemini 可以作為孩子的學習夥伴，幫助解決數學、物理等學科難題。我們就讓它和 GPT 簡單算一下 d 角度數。

Bard 好像還沒從數葉子那兒回過神來，整出來個 300 度。邏輯是：完整内角和 360 度，圖片裏就标出來一個角的數值 300 度，所以這鐵定就是你問的答案——忽略了 d 角。

咱就是説，這個 " 學習夥伴 " 有點迷糊啊 ......

而 ChatGPT 這邊繼續穩定發揮，得出 60 度正确答案。

不過，我們決定再給 Bard 一次機會，讀圖表。

這是一張來自美國勞工部的柱狀圖，顯示截至 2023 年 10 月一年内消費者價格指數（CPI）在食品、能源及其它類别中的百分比變化。左邊為 Bard 給出的答案，右邊來自 ChatGPT。

這次要好好表揚一下 Bard 了，不僅解釋了 CPI 指數的含義，給出幾個類别百分比變化的确切數值，還簡要分析了當下通脹情況，即給出了表格數據之上的分析結論。

相比之下，ChatGPT 的答案就比較淺層，讀出的數值也僅僅是一個範圍。

最後，雖然官方稱 Gemini Pro 還沒準備好提供中文服務，但鑑于 Bard 中文水平一直還不錯，我們還是很想讓它和 ChatGPT 比拼一把。

而且準備祭出最近相當火的—— " 練心眼子 " 系列。

這一比不要緊，Bard 這嘴皮子功夫簡直了，能啓發一大批職場小白，甚至感覺 IP 地址來自山東。

而 ChatGPT 的回答雖然也還可以，但此刻在 Bard 的襯托下，就像個老實巴交、不善言談的職場打工人。

這還沒有正式推出中文服務，等官宣更多語言和地區，不知道 Bard 的中文水平會不會更加炸裂？

總而言之，雖然一整套實測下來，Bard 在一些方面還是略有不足，但也還要記得，這只是對标 GPT-3.5 的 Gemini Pro 版本，真正對抗 GPT-4 的最高階 Gemini Ultra 還沒有釋出。

另外，Gemini 1.0 的問世打破了 ChatGPT 一家獨大的局面，讓用户們可以根據需求有更多選擇。市場的良性競争也有助于 AI 大模型領網域整體的創新發展。

并且，Google Bard 現在還是免費的！

如果繼續保持下去，等它越來越強的時候，你還願意每月花 20 刀訂閲 ChatGPT 嗎？