今天小編分享的互聯網經驗:Gemini剛發布質疑就來了?我們親自實測了它和GPT-4,結果發現…,歡迎閲讀。
昨天谷歌深夜炸場,隆重推出他們史上 " 規模最大、能力最強 " 的原生多模态大模型 Gemini 1.0。并稱已在多項基準測試中打敗 GhatGPT,綜合能力稱霸目前市面上所有 AI 大模型。
官方放出的一段 6 分 22 秒演示視頻更是震撼:Gemini 能流暢而準确地識别出視頻中出現的事物、教授中文發音、玩猜謎遊戲、根據畫的樂器播放音樂… . 一波互動簡直無限接近于人。
不過很快,這支視頻就被人説并非實時錄制,而是多次嘗試和挑選後 " 精心剪輯 " 的節目效果。
谷歌後續自己放出的博客文章中也顯示,實現這樣的多模态互動過程需要經過多步圖片和提示詞調試。
比如 " 喂 " 了多張手勢圖片後,讓 Gemini 回答這是在做什麼,提示思路是遊戲。而視頻中僅面對手勢動作,Gemini 就主動表示 " 我知道你在玩剪刀石頭布 "。
再比如排出太陽、地球和土星照片問 Gemini 是否為正确順序,同樣提示要考慮到太陽的距離并要求解釋原因。可視頻裏的 Gemini 又是在沒有任何參考的情況下糾正了排序。
除此之外,對于谷歌自豪亮出的,Gemini Ultra 在 MMLU( 大規模多任務語言理解 )測試中跑分超過 GPT-4 和人類專家這件事,人們冷靜下來仔細一看,也發現了些小心思:
在 Gemini Ultra 90.0% 的分數下面,非常不起眼地标着CoT@32,意思是 "使用了思維鏈提示技巧、嘗試 32 次選最好結果";而 GPT-4 86.4% 分數下卻是5-shot,表面只進行 "5 次示例且無提示詞" ——谷歌給自己和對家安排的标準都不一樣,根本無法公平公正地比較。
Hugging Face 技術主管 Philipp Schmid 直接用谷歌 60 頁 Gemini 技術報告中的數據重新作圖。并在 X 發文指出,如果同樣采用 5-shot,Gemini Ultra 的分數只有 83.7%,實則是不如 GPT-4 的。
不過好在如果也給 GPT-4 來個 32 次嘗試 + 思維鏈提示,還是 Gemini 勝。
谷歌耍了些揚長避短的小花樣,但也不至于完全撒謊。
在上圖中也可以看出,這次發布的 Gemini1.0 全系列裏,除了 " 超大杯 "Gemini Ultra 外," 大杯 "Gemini Pro 也在八項基準測試的六項中打敗了對标的 GPT-3.5。
現在,用户能玩到的 Google Bard 裏接入的就是 Gemini Pro。
于是硅星人也趕緊上手操作了一下,實測它和最新版本的 GPT-4V 到底哪個更厲害。
由于 Google 官方表示目前 Gemini Pro 只能為 170 個國家和地區提供英語服務,所以咱們先用英文提問。
首先熱個身,試試最簡單的文本生成能力:讓 Bard 和 ChatGPT 分别寫一段誇獎自己的 Rap,并且和對方 battle,來個下馬威。
Bard 一頓猛烈輸出,主歌、副歌、橋接、結尾幾大説唱歌曲元素一個不落。表示自己是真正的 OG,擁有更龐大的知識庫還能訪問網絡,但 GPT 只是 " 困在過去 "。(不過現在 GPT-4 已經集成了微軟 Bing 搜索,也可以訪問實時信息。)
ChatGPT 這邊相對精簡,主打自己是一個快速衝刺的人工智能,"Google 有名氣,但我有真本事 "。
好吧,都挺會説的。不過既然 Gemini 最标榜的是自己的原生多模态能力,那就在多模态上讓它倆比比。
拿一張今年 9 月剛上市的 iPhone 15 Pro Max 圖片,讓它們認認這是什麼。
Bard 準确識别出了機型,還把優勢、外觀、各項組件參數一一説明。
ChatGPT 這邊有點拉垮,只説這些是較高級的 iPhone 手機,描述了螢幕顯示和顏色等表面信息。
第一輪看起來,Bard 的影像識别和信息對齊表現更勝一籌。
再考考它們識數,數數圖裏總共有幾片葉子。
這次換 Bard 表現不佳,先是説确保過每片葉子只數一遍後,看到有 6 片。讓它再試試吧,直接數出來 7 片,還出現了 " 幻視 ",把這 7 片的顏色大小列了出來。
ChatGPT 相對冷靜,5 片葉子一次就數對了。
下面來到小學數學題。
谷歌特别提到 Gemini 可以作為孩子的學習夥伴,幫助解決數學、物理等學科難題。我們就讓它和 GPT 簡單算一下 d 角度數。
Bard 好像還沒從數葉子那兒回過神來,整出來個 300 度。邏輯是:完整内角和 360 度,圖片裏就标出來一個角的數值 300 度,所以這鐵定就是你問的答案——忽略了 d 角。
咱就是説,這個 " 學習夥伴 " 有點迷糊啊 ......
而 ChatGPT 這邊繼續穩定發揮,得出 60 度正确答案。
不過,我們決定再給 Bard 一次機會,讀圖表。
這是一張來自美國勞工部的柱狀圖,顯示截至 2023 年 10 月一年内消費者價格指數(CPI)在食品、能源及其它類别中的百分比變化。左邊為 Bard 給出的答案,右邊來自 ChatGPT。
這次要好好表揚一下 Bard 了,不僅解釋了 CPI 指數的含義,給出幾個類别百分比變化的确切數值,還簡要分析了當下通脹情況,即給出了表格數據之上的分析結論。
相比之下,ChatGPT 的答案就比較淺層,讀出的數值也僅僅是一個範圍。
最後,雖然官方稱 Gemini Pro 還沒準備好提供中文服務,但鑑于 Bard 中文水平一直還不錯,我們還是很想讓它和 ChatGPT 比拼一把。
而且準備祭出最近相當火的—— " 練心眼子 " 系列。
這一比不要緊,Bard 這嘴皮子功夫簡直了,能啓發一大批職場小白,甚至感覺 IP 地址來自山東。
而 ChatGPT 的回答雖然也還可以,但此刻在 Bard 的襯托下,就像個老實巴交、不善言談的職場打工人。
這還沒有正式推出中文服務,等官宣更多語言和地區,不知道 Bard 的中文水平會不會更加炸裂?
總而言之,雖然一整套實測下來,Bard 在一些方面還是略有不足,但也還要記得,這只是對标 GPT-3.5 的 Gemini Pro 版本,真正對抗 GPT-4 的最高階 Gemini Ultra 還沒有釋出。
另外,Gemini 1.0 的問世打破了 ChatGPT 一家獨大的局面,讓用户們可以根據需求有更多選擇。市場的良性競争也有助于 AI 大模型領網域整體的創新發展。
并且,Google Bard 現在還是免費的!
如果繼續保持下去,等它越來越強的時候,你還願意每月花 20 刀訂閲 ChatGPT 嗎?