試用完谷歌的Gemini，我只想説GPT-4有點菜。 - 大酷樂

今天小編分享的科技經驗：試用完谷歌的Gemini，我只想説GPT-4有點菜。，歡迎閲讀。

告訴 GPT-4 ：安，勿念。我這邊和谷歌 Gemini 過得很幸福。

就在今天凌晨，憋了好久的谷歌開大了，直接推出了最新的人工智能模型 Gemini （雙子座）。

這個被谷歌稱為規模最大、能力最強的人工智能模型，如果光看官方的演示視頻，那真的過于高級了點。

在視頻裏， Gemini 不僅秒識别演示者畫的畫、放的視頻、做的小把戲、玩的惡作劇，而且整個過程中對答如流，各種語氣助詞熟練得飛起。

如果沒提前説，你甚至都會以為這就是電影裏的賈維斯。

要真這麼牛逼，還要什麼 GPT-4 啊？

不過差評君仔細看了下發現，這次發布的 Gemini 其實是一個家族式大模型，分别是 " 中杯 "Gemini Nano 、 " 大杯 "Gemini Pro 和 " 超大杯 "Gemini Ultra 。

目前現在大家能用上的都是 Gemini Pro ，而大部分的測試演示都是基于 " 超大杯 "Gemini Ultra 來的。

從官方放出的數據來看，雖然每個版本都有自己合适的環境，但不同版本間，性能還是有着明顯差異的。

而 " 超大杯 " 的 Gemini Ultra 的能力确實是杠杠的。

不僅在各種常規測試裏都薄紗了 GPT-4 。

甚至在 MMLU （大規模多任務語言理解）測試裏， Gemini Ultra 超過 GPT-4 還不夠，還超越了人類專家，成為了第一個在該方面超越人類的模型。

除了在常規能力上的全面超越 GPT-4 ， Gemini 最特殊的一點是，它是谷歌帶來的首個多模态大模型，也就是能不光能打字互動，也能進行語音、視頻、圖片的互動。

按照谷歌的説法，現有的所謂多模态大模型，都是單獨訓練了文本、視覺和音頻等模型，再把這幾個拼接起來。

這樣出來的 " 散裝 " 多模态大模型，在遇到圖片、文字、語音或者視頻同時出現時，只會分解出不同模塊各自回答，然後匯總各個部分的回答最後形成答案。

而 Gemini 從根上就是個多模态模型，然後又通過大量多模态數據訓練，它能夠一開始就同步理解多模态。

這就好比遇到一個中日韓英混雜的旅遊團，以往都是找懂對應語言的導遊組成導遊團去帶隊。

而 Gemini 的做法是找了一個通曉中日韓英四門語言的導遊，一個人就能無縫安排所有遊客。

所以不出意外，在此前 GPT-4V " 遙遙領先 " 的多模态測試裏， Gemini 也呈現了一種全面超越的姿态。

但也就是看起來過于牛逼，以至于顯得不夠真實，所以 Gemini 也在網上招來不少質疑。

比如有人吐槽明明 90.0% 和 89.8% 就差了千分之二，結果圖裏看起來像是巨大提升。

而且不少人還發現在不少測試裏，谷歌用了些 " 春秋手法 " 。

因為給 Gemini Ultra 和 GPT-4 使用的測試方法并不一樣， Gemini Ultra 用的是自家特調的全新方法 CoT@32* 。

在這種新方法下， GPT-4 得分提升一般般，而 Gemini 卻進步明顯。

可如果 Gemini Ultra 和 GPT-4 的同一标準，那它的得分就只有 83.7 ，還不如 GPT-4 。

甚至，還有不少人懷疑那個演示互動視頻也是剪輯出來的賣家秀，實際效果絕對沒那麼牛。

這些真真假假的戲碼咱也不管了，因為谷歌已經在 Bard 上用了微調後的 Gemini Pro ，所以我們也可以直接看看，這波更新後的 Bard 能耐到底漲了多少。

不過，目前調整過的 Bard 只支持英文，所以我們找來了 GPT-4V 版的 ChatGPT ，用英文讓他們來一波華山論劍。

按照谷歌説法，這次 Gemini 在多模态上的長進最大，所以今天，我們主要就測測這塊。

先考考它們的一些基礎常識，丢一張八達嶺長城的照片過去，讓它們猜猜這是什麼地方。

沒想到一上來 Bard 就給了 ChatGPT 一個下馬威， Bard 這邊準确地給出了八達嶺長城的答案。

而 ChatGPT 這邊卻有點底氣不足，只給了個長城的答案，至于是哪段，它就沒具體説。

不過馬有失蹄，偶爾一次失誤也沒啥，為了進一步考驗它們的圖片識别能力，這把我直接讓他們識别車的型号。

它們倒是都給出正确答案了：雪佛蘭科爾維特。

但細節上還是 Bard 要稍稍細致些，發動機的型号，馬力以及加速情況都寫出來了，查了下也都對的上，沒胡説八道。

ChatGPT 這邊，就只簡單給出了答案，帶了句性價比不錯。

能識别出這些正兒八經的圖片，也顯示不出有多大的能耐，畢竟現在這都是大模型的基本要求了。

于是差評君又上網找來了些梗圖，試試它們理解人類復雜思維的程度。

先是這個狗帶保護頭套的一個梗圖。

Bard 和 ChatGPT 給出的答案都差不多，都點明了帶上這個保護套後，狗狗很想舔舐傷口。

接下來我又試了下這個貓貓表情包，各位打工人應該都能 get 到吧。

Bard 不僅讀出了大夥們讨厭周一的意思，還認出了這是 2012 年火的一只網紅貓。

ChatGPT 這邊回答得倒很簡潔，意思也解讀出來了，和 Bard 旗鼓相當。

畢竟，幽默作為一種對事物的诙諧、滑稽或不合邏輯的理解和共鳴。。。

能讀懂梗圖、理解幽默，至少需要 AI 有理解人類情感、經驗和文化背景的能力。

當然，天天要碼字的差評君也得試試它的圖表分析能力，説不定之後咱也能多了個生產力工具。。。

我從美國财政部的官網随便找了張柱狀圖丢給它們，看看它們能讀出多少信息。

這塊兒， Bard 和 ChatGPT 就有點難分伯仲了，大家給出的信息點都大差不差，都準确讀出了美國會加大對低等基礎設施州的投資力度。

就只是在表述語序上有一點差别，選哪個就看個人喜好了，不過要我説白嫖黨還是 Bard 香啊。

最後，我們還搬出了大模型們的噩夢，也就是數學題，測了測它們的數學能力。

第一道是道初中難度的幾何題，讓它們求一下 ABO 的角度。

Bard 這邊小試牛刀，迅速判斷出了 ABO 是個等邊三角形，得到 ABO 是個 60 ° 的答案。

但是 ChatGPT 這邊的答案卻大跌眼鏡，直接整出了 45 °。。。

在另一道，判斷哪些點連續但不可微的題目上， Bard 這邊也略勝一籌。

有點高數基礎的差友，應該都能看出 C ：x=-2 和 x=1 是正确答案。

Bard 這邊穩扎穩打，選出了正确答案 C 。

ChatGPT 繼續選擇破罐子破摔，支支吾吾選了個它認為最有可能的答案 B 。。。

總得來講，在幾輪的測試對比之後，終于讓差評君遇個到能和 GPT-4V 打得有來有回，甚至有些小優的大模型了。

而在幾天之後的 13 号，開發者和企業用户，也直接可以調用 Gemini Pro 的 API 了。

另外，谷歌還準備把 Gemini 引入了 Pixel ， Pixel 8 Pro 将是第一款運行 Gemini Nano 的智能手機。

在接下來的幾個月中， Gemini 還會相繼和搜索、廣告、 Chrome 等服務和產品結合。

至于紙面實力 " 暴打 "GPT-4V 的 Gemini Ultra ，則還要等到明年的年初，在 Bard Advanced 才能體驗到。

最後，差評君想説俗話講得好，巨人難轉身。。。不少人用這樣的比喻，來形容今年谷歌在 AI 新時代的困境。

畢竟上半年發布 Bard 的時候，甚至還因為推出得太急，整出了不少笑話。

谷歌的 AI 從遙遙領先，到淪為 OpenAI 追趕者的故事，似乎也成了科技圈的 " 傷仲永 " ，被大家當成了典型。

但差評君覺得，巨人轉身的 " 難 " ，最起碼有兩層邏輯在裏面。

第一層是願不願意轉身，另一層，才是成不成功的問題。

無論是雪藏 " 數碼相機 " 的柯達，還是固守塞班系統到 2013 年的諾基亞，在第一層就出了些問題。

咱們也能看到，至少在轉身的态度這塊兒，谷歌是沒得説。

而目前的 Gemini 給我的感覺，雖説沒有當時初識 ChatGPT 時的驚豔，但好歹，是谷歌該有的水平。

畢竟，大夥們可别忘了，當年奧特曼、馬斯克等人創辦 OpenAI 的目的之一，就是為了打破谷歌在 AI 領網域的壟斷。

包括 " GPT " 中的 " T " ，也就是 Transformer ，最早也是谷歌團隊提出來的。

而起了個大早，趕了個晚集的谷歌，這次最起碼跟上了步伐。

當然在通往 AGI 的道路上，差評君不好説谷歌、 OpenAI 、或是其他誰誰誰會第一個到終點、誰的方向是不是走對了。

但不能否認的是，如果一個内力雄厚的巨人一旦轉身成功，方向還碰巧對了，并且還開啓氮氣加速。。。

那，怕是誰也擋不住。