今天小編分享的科技經驗:光速打臉!谷歌承認Gemini演示視頻是剪輯版,它能做的GPT都能,歡迎閱讀。
編譯 / 無忌
編輯 / 騰訊科技 郝博陽
西方感恩節和聖誕節期間通常并不是推出新技術的合理時間,但對 Alphabet 的旗艦子公司谷歌而言,今年的這段時間也是絕望的時刻。一年前,這家行動遲緩的搜索巨頭被推出 ChatGPT 的 OpenAI 甩在身後,它急于描繪出自己飛速前進的畫面。在媒體報道稱谷歌将推遲發布 Gemini 之後,該公司周三突然發布 Gemini。Gemini 是一款全新的人工智能模型,可以識别魔術中的技巧,并在會計認證考試中取得好成績。谷歌發布的演示視頻震驚了社交媒體,但從技術角度來看,谷歌仍被 OpenAI 甩在身後,正在努力地追趕。
谷歌對 Gemini 模型進行了嚴格的測試,并評估了它們在各種任務中的表現。從自然影像、音頻和視頻理解,到數學推理等任務。從谷歌發布的數據上看,Gemini Ultra 是首個在大規模多任務語言理解數據集(MMLU)任務表現上優于人類專家的大模型,得分率高達 90.0%。作為對比,人類專家的成績為 89.8%,GPT4 的成績為 86.4%。MMLU 數據集包含數學、物理、歷史、法律、醫學和倫理等 57 個科目,用于測試大模型的知識儲備和解決問題能力。
但在大多數基準測試中,Gemini Ultra 僅領先 OpenAI 的 GPT-4 模型幾個百分點。換句話說,谷歌最好的 AI 模型只是在 OpenAI 至少一年前完成的工作上做出了微小的改進。如果像谷歌所說的那樣,Gemini Ultra 在明年 1 月初發布,它可能不會在很長時間内保持頂級模型的地位。在谷歌拼命趕上 OpenAI 的這段時間裡,後者已經花了将近一年的時間來開發它的下一代人工智能模型 GPT-5。
承認演示視頻為剪輯版本
在谷歌發布的時長為 6 分鍾的演示視頻中,一個男子做出後仰并躲避的慢動作,Gemini 馬上猜出這是表演《黑客帝國》中的場景;當人類拿起畫筆在一張紙上勾勒出一只鴨子,并為它塗上了藍色,Gemini 說這可不是鴨子常見的顏色;當人類用手指比劃剪刀石頭布的動作時,Gemini 馬上猜出是在玩剪刀石頭布;當三個空杯并排放在桌子上,一張藍色紙團被塞進其中一個杯子裡,在人類一番眼花缭亂的操作後,Gemini 準确地猜出:" 紙團在最左邊的杯子裡!" 這段視頻展示了谷歌 DeepMind 人工智能實驗室在過去幾年中訓練的推理能力,也是其他人工智能模型所沒有的。
在社交媒體 X 上發布的這段視頻的跟帖中,技術專家稱 Gemini 的表現 " 令人瞠目結舌。"不過沃頓商學院管理學教授伊桑 · 莫裡克(Ethan Mollick)經過比對實驗證明了,Gemini 展示出的許多能力并不是獨一無二的,GPT-V 早已具備了這些能力。
彭博專欄作家帕米 · 奧爾森(Parmy Olson)對此撰文指出,Gemini 在視頻中似乎非常能幹了。但谷歌自己也承認,視頻是剪輯過的。該公司在 YouTube 的描述中表示:" 為了演示的目的,為了簡潔起見,延遲被減少了,Gemini 的輸出也被縮短了。" 這引發出關于谷歌實際上給 Gemini 提前埋了多少提示的質疑。
這就是奧爾森發現的端倪。根據她的彭博文章,谷歌承認視頻演示不是實時進行的,而是使用原始鏡頭中的靜止影像幀,然後寫出文本提示,讓 Gemini 做出回應。奧爾森寫道:" 這與谷歌似乎暗示的完全不同:一個人可以在 Gemini 觀察并實時回應周圍世界的同時,與它進行流暢的語音對話。" 奧爾森認為,谷歌的視頻就是在 " 炫耀 ",目的是誤導人們,讓他們不知道 Gemini 仍然落後于 OpenAI 的 GPT。
谷歌不同意奧爾森的觀點。當被問及演示的有效性時,谷歌發言人指出,DeepMind 負責研究和深度學習的副總裁奧瑞奧 · 維納爾斯(Oriol Vinyals)的一篇帖子,解釋了該團隊如何制作視頻。維納爾斯:" 視頻中所有的用戶提示和輸出都是真實的,為了簡潔起見被縮短了。" 該視頻展示了使用 Gemini 構建的多模态用戶體驗。我們制作它是為了激勵開發者。"