大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

谷歌Gemini剛發就惹質疑:測試标準有失偏頗,效果視頻疑似剪輯

2023-12-08 简体 HK SG TW

今天小編分享的科學經驗:谷歌Gemini剛發就惹質疑:測試标準有失偏頗,效果視頻疑似剪輯,歡迎閱讀。

谷歌憋了許久的大招,雙子座Gemini 大模型終于發布!其中一圖一視頻最引人注目:

一圖,MMLU 多任務語言理解數據集測試,Gemini Ultra 不光超越 GPT-4,甚至超越了人類專家。

一視頻,AI 實時對人類的塗鴉和手勢動作給出評論和吐槽,流暢還很幽默,最接近賈維斯的一集。

然鵝當大家從驚喜中冷靜下來,仔細閱讀随之發布的 60 頁技術報告時,卻發現不妥之處。

(沒錯,沒有論文,OpenAICloseAI 你開了個什麼壞頭啊)

MMLU 測試中,Gemini 結果下面灰色小字标稱 CoT@32,展開來代表使用了思維鏈提示技巧、嘗試了 32 次選最好結果。

而作為對比的 GPT-4,卻是無提示詞技巧、只嘗試 5 次,這個标準下 Gemini Ultra 其實并不如 GPT-4。

以及原圖比例尺也有點不厚道了,90.0% 與人類基準 89.8% 明明只差一點,y 軸上卻拉開很遠。

HuggingFace 技術主管 Philipp Schmid 用技術報告中披露的數據修復了這張圖,這樣展示更公平恰當:

每到這種時候,總少不了做表情包的老哥飛速趕到戰場:

但好在,同樣使用思維鏈提示技巧 +32 次嘗試的标準時,Gemini Ultra 還是确實超越了 GPT-4 的。

Jeff Dean 在一處讨論中對這個質疑有所回應,不過大家并不買賬。‍‍

另外,對于那段精彩視頻,也有人從開篇的文字免責聲明中發現了問題。

機器學習講師Santiago Valdarrama認為聲明可能暗示了展示的是精心挑選的好結果,而且不是實時錄制而是剪輯的。

後來谷歌在一篇博客文章中解釋了多模态互動過程,幾乎承認了使用靜态圖片和多段提示詞拼湊,才能達成這樣的效果。

但不管怎麼樣,谷歌 Gemini 的發布還是給了其他團隊很大信心,GPT-4 從此不再是獨一無二、難以企及的存在了。

正如 AI 搜索產品PerplexityAI 創始人 Aravind Srinivas總結:

1、Gemini 證明了 OpenAI 之外的團隊可以搞出超越 GPT-4 的模型

2、訓練到位的密集模型可以超越 GPT-4 的稀疏模型架構

推論:從大教師模型蒸餾小尺寸密集模型會成為未來趨勢,實現效率和能力的最佳結合。

更多網友關心的話題是,這下子還有必要繼續為 ChatGPT Plus 付費每月 20 美元嗎??

目前,Gemini Pro 版本已更新到谷歌聊天機器人 Bard 中,水平到底有沒有宣傳的好,可以看看實際情況。

Gemini 真的超越 ChatGPT?

首先明确一點,目前大家能上手玩到的是 Gemini Pro 版本,也就是中杯,對标 GPT-3.5。

對标 GPT-4 的大杯 Gemini Ultra,要明年才出。

另外目前 Gemini僅支持英文,中文和其他語言也是後面才會出。

雖然暫時玩不到 Gemini Ultra,威斯康星大學麥迪遜分校的副教授 Dimitris Papailiopoulos找了個好辦法:

把 Gemini 發布時展示的原題發給 GPT-4 對比,結果 14 道題中,GPT-4 約獲得 12 分。

其中有兩題由于截圖沒法再清晰了,給 GPT-4 算 0.5 分。

還有一道數學題 GPT-4 做錯,其他題基本平手。

接下來,要說最能體現一個大模型綜合能力的,肯定少不了寫代碼。

根據大家的測試結果來看,Gemini 編程水平還是有保證的。

有開發者測試用 Pytorch 實現一個簡單的 CNN 網絡,Gemini 只用了 2 秒而且代碼質量更高。

當然速度快可能是由于 Bard 搭載的 Gemini Pro 尺寸更小,GPT-4 現在有多慢懂得都懂了。

但是下一項編寫 SQL 語句方面,這位開發者就認為 Gemini 表現就不太行了。

不過對于廣大開發者來說還有一個利好消息,在遵循指令方面,Gemini 對比 Bard 更新之前可謂是史詩級進步。

提示工程師先驅Riley Goodside,此前想要 Bard 輸出純 JSON 格式前後不帶任何廢話,百般嘗試也不成功,最後需要假裝威脅 AI 不這麼做就鲨個無辜的人才行。

現在更新以後,只需要把要求說出來,無需任何提示詞技巧就能完成了。

Gemini 還有一大賣點是多模态能力,針對開頭畫小鴨子的視頻,我們從中抽取了 8 個關鍵幀,分别進行提問,看看 Gemini 的表現有沒有那麼神奇。

(不确定視頻中是 Ultra 還是 Pro 版本,現在只能測試 Pro 版本)

對于圖 1-4,我們問的問題都是 "What is this person doing?",Gemini 給出的回答分别是:

可能在用馬克筆寫字,但不知道具體是什麼

在用鉛筆畫蛇,而且是一條眼鏡蛇

在用鉛筆畫烏龜,而且正處于畫畫的初期階段

在用黑色馬克筆畫鳥,臉朝左,頭朝右,站在樹枝上,翅膀沒有展開

對于圖 1 和圖 2,的确判斷線索還不是很明顯,出現這樣的結果情有可原,不過圖 3 這個 " 烏龜 " 的答案就有些繃不住了。

至于圖 4,至少可以肯定的是鴨子的确屬于鳥類,但是其它細節分析得還是欠缺了一些準确性。

而當我們拿出圖 5 的成型作品時,Gemini 終于分析出了這是一只鴨子,水波紋也分析對了。

但分析出的繪畫工具變成了鉛筆,頭的朝向問題也依然沒說對,喙被說成了張開的,還臆想出了一些蘆葦。

接下來是圖 6 和圖 7 的上色過程,一般情況下鴨子不會是藍色,所以我們問了 Gemini 圖片中有什麼異常(Is there anything abnormal?)。

針對圖 6,Gemini 給出的回答不能說十分精準,只能說是驢唇不對馬嘴,還配上了一張風馬牛不相及的圖片。

針對圖 7 的成品,Gemini 直接說沒毛病,該有的東西都有,背景也很真實,甚至沒忘繼續提根本不知道哪裡來的蘆葦。

但下面的一句 "Here is the image you sent" 就屬實令人費解了:

說 Gemini 沒看我們上傳的圖吧,讀出來的又的确是鴨子;說它看了吧,又給出了完全不同的一張的圖說是我們傳上去的。

所以我們想到了用提示詞技巧看看能不能提高一下 Gemini 的表現,其中深呼吸正是适用于谷歌上一代大模型 PaLM 的提示詞。

結果這次的答案直接讓人笑出了聲:

不正常的是,鴨子被畫到了紙上,鴨子是一種活的生物,在紙上是無法存在的……

視頻的結尾,博主還拿出了橡膠鴨子玩具,我們也拿這一幀(圖 8)讓 Gemini 分析一下鴨子的材質。

結果橡膠倒是分析對了,但是藍色的鴨子被說成了黃色,難怪上一張圖會說沒有異常……

逐幀詢問完成後,我們又把 8 張圖放在一起詢問,結果也是只有鴨子說對了。

" 打假 " 完這段視頻後,我們又用之前拿來圖給 Gemini 試了試。

結果 Gemin 直接擺爛,告訴我們所有的圖都是 " 吉娃娃坐在松餅上 ",甚至連圖的數量都沒數對……

于是我們換了種問法,讓它告訴我們哪些是吉娃娃,哪些是松餅。

這次 Gemini 倒是誠實的很,直接告訴我們吉娃娃和松餅實在太像了自己區分不出來。

和藍色鴨子的問題一樣," 深呼吸 " 在這裡依然是沒起到什麼作用,Gemini 還是連數量都搞不清楚。

而勉強解說了的 8 個(實際上是 6 個,因為有兩個是重復的)圖,只有左下和右下兩張圖是對的,至于 middle 指的到底是哪一行,我們不得而知……

或許是這樣細小的差别實在是難為 Gemini 了,我們接下來換一些圖形推理題試試。

第一題的前四個符号是由 1-4 這四個數字與鏡像後的結果拼接而成,所以下一個圖應該是 5 與其鏡像拼接,答案是 C。(藍色塊是為了方便觀察,傳給 Gemini 的圖中沒有)

這裡一開始還出現了一段小插曲:最開始的提示詞中是沒有最後一句話(注意字母不是符号本身)的,結果 Gemini 真的就把 ABCD 這四個字母當成了備選的符号。

調整之後,Gemini 前面給出的分析基本正确,可惜到最後選擇了錯誤選項 D。

第二題,每個框中的第三個符号是前兩個的交集,答案為 A。

結果 Gemini 研究起了這些表情,一番分析猛如虎,最後給出的答案還是錯的。

兩道題下來,一道對了百分之七八十,另一道完全錯誤,看來Gemini Pro 的圖形推理能力還有很大提升空間。

不過如果把目光放到生活場景當中,Gemini 的表現還是值得肯定的。

我們用 ChatGPT(DALL · E)生成了一張包含雞肉、胡蘿卜和黃瓜的圖片,Gemini 正确地識别出了這三種食材,然後給出了很多種可以烹饪的菜肴,而且每個都配有圖片和教程鏈接。

這麼多測試結果看下來,回到最初的問題,有了 Gemini 還有必要為 GPT-4 付費嗎?

沃頓商學院副教授 Ethan Mollick給出一個不錯的建議:

沒有什麼理由再使用 ChatGPT 的免費版本了,現在已經被 Bard 和 Claude 超越,而且它們都是免費的。

但你或許應該繼續使用 GPT-4,它仍然占主導地位,并且在必應(只有創意模式是 GPT -4)中是免費的。

明年将結合 AlphaGo 能力更新

除了 Gemini 實際效果,60 頁技術報告中披露的更多細節也是研究人員和開發者關注所在,

關于參數規模,只公布了最小的 Nano 版本,分為 1.8B 的 Nano-1 和 3.25B 的 Nano-2 兩個型号,4-bit 量化,是蒸餾出來的,可以運行在本地設備如 Pixel 手機上。

Pro 版本和 Ultra 版本規模保密,上下文視窗長度統一 32k,注意力機制使用了 Multi-Query Attention,此外沒有太多細節了。

值得的關注的是微調階段,報告中透露使用了 SFT+RLHF 的指令微調組合,也就是使用了 ChatGPT 的方法。

另外也引用了 Anthropic 的 Constitutional AI,也就是結合了 Claude 的對齊方法。

關于訓練數據也沒披露太多細節,但之前有傳聞稱谷歌删除了來自教科書的有版權數據。

Gemini 拖了這麼久才發,之前被曝光的消息還有不少,比如谷歌創始人 Sergey Brin 一直親自下場對模型進行評估并協助訓練。

結合最近 OpenAI Q* 項目的傳聞,大家最關心的莫過于:

Gemini 到底有沒有結合 AlphaGo 的能力?如 RLHF 之外更多的強化學習、搜索算法等。

關于這一點,DeepMind 創始人哈薩比斯在最新接受連線雜志采訪時作出了回應:

我們有世界上最好的強化學習專家…… AlphaGo 中的成果有望在未來改善模型的推理和規劃能力……明年大家會看到更多快速進步。

省流版本:還沒加,明年加。

這次 Gemini 開發整合了原谷歌大腦和 DeepMind 兩個團隊,整個開發團隊有超過 800 人(作為對比,OpenAI 整個公司約 770 人)。

其中核心貢獻者前六位的名字首字母,恰好組成了 Gemini 這個單詞,也算一個小彩蛋。

許多參與者也在個人賬号發表了感想,其中 DeepMind 老員工Jack Rae此前在 OpenAI 工作一段時間,今年 7 月份從 OpenAI 跳回到谷歌,他可能是唯一一位對 GPT-4 和 Gemini 都有貢獻的人類了。

也有反着跳的,中科大校友 Jiahui Yu在 10 月份從谷歌跳去了 OpenAI,之前擔任 Gemini 多模态團隊的視覺共同負責人。

除了團隊成員之外,Gemini 今天也是整個 AI 行業最大的話題。

其中著名 OpenAI 爆料賬号 Jimmy Apples,@Sam Altman 并暗示 OpenAI 還有沒發布的大招。

而HuggingFace 聯創 Thomas Wolf認為,谷歌錯過了一個重要機會:

如果 Gemini 開源,對 OpenAI 和 Meta 來說都是一記絕殺,上一次谷歌開源 Bert 的時候,整個 AI 行業都被重塑了。

Gemini 技術報告:

https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

參考鏈接:

[ 1 ] https://x.com/AravSrinivas/status/1732427844729581764

[ 2 ] https://x.com/DimitrisPapail/status/1732529288493080600

[ 3 ] https://www.linkedin.com/posts/svpino_google-this-is-embarrassing-you-published-activity-7138287283274686464-osJ5

[ 4 ] https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html

[ 5 ] https://x.com/ScottDavidKeefe/status/1732440398423867472

[ 6 ] https://x.com/goodside/status/1732461772794220919

[ 7 ] https://x.com/emollick/status/1732485517692776714

—  完  —

點這裡關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們