今天小編分享的科技經驗:試用完谷歌的Gemini,我只想説GPT-4有點菜。,歡迎閲讀。
告訴 GPT-4 :安,勿念。我這邊和谷歌 Gemini 過得很幸福。
就在今天凌晨,憋了好久的谷歌開大了,直接推出了最新的人工智能模型 Gemini ( 雙子座 )。
這個被谷歌稱為規模最大、能力最強的人工智能模型,如果光看官方的演示視頻,那真的過于高級了點。
在視頻裏, Gemini 不僅秒識别演示者畫的畫、放的視頻、做的小把戲、玩的惡作劇,而且整個過程中對答如流,各種語氣助詞熟練得飛起。
如果沒提前説,你甚至都會以為這就是電影裏的賈維斯。
要真這麼牛逼,還要什麼 GPT-4 啊?
不過差評君仔細看了下發現,這次發布的 Gemini 其實是一個家族式大模型,分别是 " 中杯 "Gemini Nano 、 " 大杯 "Gemini Pro 和 " 超大杯 "Gemini Ultra 。
目前現在大家能用上的都是 Gemini Pro ,而大部分的測試演示都是基于 " 超大杯 "Gemini Ultra 來的。
從官方放出的數據來看,雖然每個版本都有自己合适的環境,但不同版本間,性能還是有着明顯差異的。
而 " 超大杯 " 的 Gemini Ultra 的能力确實是杠杠的。
不僅在各種常規測試裏都薄紗了 GPT-4 。
甚至在 MMLU ( 大規模多任務語言理解 )測試裏, Gemini Ultra 超過 GPT-4 還不夠,還超越了人類專家,成為了第一個在該方面超越人類的模型。
除了在常規能力上的全面超越 GPT-4 , Gemini 最特殊的一點是,它是谷歌帶來的首個多模态大模型,也就是能不光能打字互動,也能進行語音、視頻、圖片的互動。
按照谷歌的説法,現有的所謂多模态大模型,都是單獨訓練了文本、視覺和音頻等模型,再把這幾個拼接起來。
這樣出來的 " 散裝 " 多模态大模型,在遇到圖片、文字、語音或者視頻同時出現時,只會分解出不同模塊各自回答,然後匯總各個部分的回答最後形成答案。
而 Gemini 從根上就是個多模态模型,然後又通過大量多模态數據訓練,它能夠一開始就同步理解多模态。
這就好比遇到一個中日韓英混雜的旅遊團,以往都是找懂對應語言的導遊組成導遊團去帶隊。
而 Gemini 的做法是找了一個通曉中日韓英四門語言的導遊,一個人就能無縫安排所有遊客。
所以不出意外,在此前 GPT-4V " 遙遙領先 " 的多模态測試裏, Gemini 也呈現了一種全面超越的姿态。
但也就是看起來過于牛逼,以至于顯得不夠真實,所以 Gemini 也在網上招來不少質疑。
比如有人吐槽明明 90.0% 和 89.8% 就差了千分之二,結果圖裏看起來像是巨大提升。
而且不少人還發現在不少測試裏,谷歌用了些 " 春秋手法 " 。
因為給 Gemini Ultra 和 GPT-4 使用的測試方法并不一樣, Gemini Ultra 用的是自家特調的全新方法 CoT@32* 。
在這種新方法下, GPT-4 得分提升一般般,而 Gemini 卻進步明顯。
可如果 Gemini Ultra 和 GPT-4 的同一标準,那它的得分就只有 83.7 ,還不如 GPT-4 。
甚至,還有不少人懷疑那個演示互動視頻也是剪輯出來的賣家秀,實際效果絕對沒那麼牛。
這些真真假假的戲碼咱也不管了,因為谷歌已經在 Bard 上用了微調後的 Gemini Pro ,所以我們也可以直接看看,這波更新後的 Bard 能耐到底漲了多少。
不過,目前調整過的 Bard 只支持英文,所以我們找來了 GPT-4V 版的 ChatGPT ,用英文讓他們來一波華山論劍。
按照谷歌説法,這次 Gemini 在多模态上的長進最大,所以今天,我們主要就測測這塊。
先考考它們的一些基礎常識,丢一張八達嶺長城的照片過去,讓它們猜猜這是什麼地方。
沒想到一上來 Bard 就給了 ChatGPT 一個下馬威, Bard 這邊準确地給出了八達嶺長城的答案。
而 ChatGPT 這邊卻有點底氣不足,只給了個長城的答案,至于是哪段,它就沒具體説。
不過馬有失蹄,偶爾一次失誤也沒啥,為了進一步考驗它們的圖片識别能力,這把我直接讓他們識别車的型号。
它們倒是都給出正确答案了:雪佛蘭科爾維特。
但細節上還是 Bard 要稍稍細致些,發動機的型号,馬力以及加速情況都寫出來了,查了下也都對的上,沒胡説八道。
ChatGPT 這邊,就只簡單給出了答案,帶了句性價比不錯。
能識别出這些正兒八經的圖片,也顯示不出有多大的能耐,畢竟現在這都是大模型的基本要求了。
于是差評君又上網找來了些梗圖,試試它們理解人類復雜思維的程度。
先是這個狗帶保護頭套的一個梗圖。
Bard 和 ChatGPT 給出的答案都差不多,都點明了帶上這個保護套後,狗狗很想舔舐傷口。
接下來我又試了下這個貓貓表情包,各位打工人應該都能 get 到吧。
Bard 不僅讀出了大夥們讨厭周一的意思,還認出了這是 2012 年火的一只網紅貓。
ChatGPT 這邊回答得倒很簡潔,意思也解讀出來了,和 Bard 旗鼓相當。
畢竟,幽默作為一種對事物的诙諧、滑稽或不合邏輯的理解和共鳴。。。
能讀懂梗圖、理解幽默,至少需要 AI 有理解人類情感、經驗和文化背景的能力。
當然,天天要碼字的差評君也得試試它的圖表分析能力,説不定之後咱也能多了個生產力工具。。。
我從美國财政部的官網随便找了張柱狀圖丢給它們,看看它們能讀出多少信息。
這塊兒, Bard 和 ChatGPT 就有點難分伯仲了,大家給出的信息點都大差不差,都準确讀出了美國會加大對低等基礎設施州的投資力度。
就只是在表述語序上有一點差别,選哪個就看個人喜好了,不過要我説白嫖黨還是 Bard 香啊。
最後,我們還搬出了大模型們的噩夢,也就是數學題,測了測它們的數學能力。
第一道是道初中難度的幾何題,讓它們求一下 ABO 的角度。
Bard 這邊小試牛刀,迅速判斷出了 ABO 是個等邊三角形,得到 ABO 是個 60 ° 的答案。
但是 ChatGPT 這邊的答案卻大跌眼鏡,直接整出了 45 °。。。
在另一道,判斷哪些點連續但不可微的題目上, Bard 這邊也略勝一籌。
有點高數基礎的差友,應該都能看出 C :x=-2 和 x=1 是正确答案。
Bard 這邊穩扎穩打,選出了正确答案 C 。
ChatGPT 繼續選擇破罐子破摔,支支吾吾選了個它認為最有可能的答案 B 。。。
總得來講,在幾輪的測試對比之後,終于讓差評君遇個到能和 GPT-4V 打得有來有回,甚至有些小優的大模型了。
而在幾天之後的 13 号,開發者和企業用户,也直接可以調用 Gemini Pro 的 API 了。
另外,谷歌還準備把 Gemini 引入了 Pixel , Pixel 8 Pro 将是第一款運行 Gemini Nano 的智能手機。
在接下來的幾個月中, Gemini 還會相繼和搜索、廣告、 Chrome 等服務和產品結合。
至于紙面實力 " 暴打 "GPT-4V 的 Gemini Ultra ,則還要等到明年的年初,在 Bard Advanced 才能體驗到。
最後,差評君想説俗話講得好,巨人難轉身。。。不少人用這樣的比喻,來形容今年谷歌在 AI 新時代的困境。
畢竟上半年發布 Bard 的時候,甚至還因為推出得太急,整出了不少笑話。
谷歌的 AI 從遙遙領先,到淪為 OpenAI 追趕者的故事,似乎也成了科技圈的 " 傷仲永 " ,被大家當成了典型。
但差評君覺得,巨人轉身的 " 難 " ,最起碼有兩層邏輯在裏面。
第一層是願不願意轉身,另一層,才是成不成功的問題。
無論是雪藏 " 數碼相機 " 的柯達,還是固守塞班系統到 2013 年的諾基亞,在第一層就出了些問題。
咱們也能看到,至少在轉身的态度這塊兒,谷歌是沒得説。
而目前的 Gemini 給我的感覺,雖説沒有當時初識 ChatGPT 時的驚豔,但好歹,是谷歌該有的水平。
畢竟,大夥們可别忘了,當年奧特曼、馬斯克等人創辦 OpenAI 的目的之一,就是為了打破谷歌在 AI 領網域的壟斷。
包括 " GPT " 中的 " T " ,也就是 Transformer ,最早也是谷歌團隊提出來的。
而起了個大早,趕了個晚集的谷歌,這次最起碼跟上了步伐。
當然在通往 AGI 的道路上,差評君不好説谷歌、 OpenAI 、或是其他誰誰誰會第一個到終點、誰的方向是不是走對了。
但不能否認的是,如果一個内力雄厚的巨人一旦轉身成功,方向還碰巧對了,并且還開啓氮氣加速。。。
那,怕是誰也擋不住。