今天小編分享的互聯網經驗:刷屏的Gemini“強大多模态能力”視頻,谷歌“造假”了?,歡迎閱讀。
周四,谷歌 YouTube 官方賬号發布的一個名為 " 與 Gemini 親密互動:與多模态 AI 互動 " 的視頻引發了網友圍觀,一天之内觀看次數達到 140 萬次。
這個視頻之所以能吸引這麼多目光,是因為它展示了谷歌史上最強 Gemini 多模态模型在互動方面令人印象深刻的表現。
在這段時長 6 分 22 秒的視頻中,Gemini 對輸入的語音、影像等提示做出了靈活、流暢的響應和理解,展現出強大的多模态理解和互動能力。
然而,據科技媒體 TechCrunch 最新報道,有用戶仔細研究該視頻後,發現 Gemini 的驚豔表現幾乎都是 " 偽造 " 的。
視頻中 Gemini 對畫面的描述、對玩具識别和提問的回答等互動都是人為設定的,視頻跳過了部分提示以及模型的推理過程,給觀眾營造一種 Gemini 智能又敏捷的假象。
Gemini 可能沒有那麼智能
Gemini 在視頻中展示了多種互動技能,比如識别玩具鴨、跟蹤杯子戲法中的球、識别手勢、重排星球順序等。
比如,在第一個演示中,Gemini 識别了一個鴨子素描從一條線到完整畫面的演變過程。當演示者将鴨子素描填滿藍色顏料時,Gemini 指出鴨子通常是棕色、白色或黑色的,不會是藍色的。
然後,當 Gemini 看到一個藍色玩具鴨時,它驚訝地說道:" 這是什麼玩意!" 接下來它回答了關于這個玩具鴨的各種語音提問。
整段視頻中,Gemini 的反應都很快,回答縱享絲滑,但問題在于,它的反應不夠真實。
媒體通過捕捉素材來測試 Gemini 在各種場景下的反應能力,重新制作了一個演示視頻。然後,用視頻素材中的靜态畫面框提示 Gemini,并通過文字輸入進行提示。
結果顯示, Gemini 确實具備視頻中展示的某些能力,但并沒有真正如視頻所示的那樣快速、流暢地完成所有互動任務。
但據 TechCrunch 稱,視頻中展示的互動效果,其實并不是真實的即時互動,而是事先設定好的。
視頻用的是一系列特意準備的文本提示,以及配套的靜态圖片,通過挑選和剪裁這些預設素材,制作成真實互動的效果。
這樣做其實是為了誤導觀眾,讓人們相信視頻中展示的是 Gemini 真正的即時互動能力。但很可能的是,Gemini 在互動速度、準确性等方面均沒有視頻中展示的那樣強大。
視頻和文檔展示的提示,差别很大
值得注意的是,當 TechCrunch 對比視頻和谷歌發布的文檔演示時,發現兩者的提示存在差異。
比如,在視頻的 2 點 45 分處,一只手做出了一系列手勢,沒有配合語音提示。Gemini 很快回應道:" 我知道你在做什麼!你在玩石頭、剪刀、布!"
但谷歌的 Gemini 能力文檔一開始就明确指出,該模型不能通過識别單個手勢來推理,提示必須同時展示全部 3 個手勢,并給提示詞 " 這是什麼遊戲 ",只有這樣它才能識别出 " 石頭、剪刀、布 "。
所以視頻中的表現完全不符合文檔所述的提示限制,無法展示出 Gemini 的真正識别能力。
另外,Gemini 識别星球順序的場景也可能具有欺騙性。
演示者展示了貼有太陽、土星和地球塗鴉的便利貼,詢問 Gemini 行星順序是否正确,Gemini 給出了正确的太陽、地球、土星順序。
但文檔顯示真正的提示是," 這是正确的順序嗎?思考離太陽的距離并解釋你的推理 "。
這兩種互動感覺上完全不同,視頻演示看起來像智能的及時評估,而在真正的互動中,Gemini 需要暗示性很強的提示。
另外,在追蹤杯子中紙團的演示中,也出現了不同于文檔記錄的提示的情況。
值得注意的是,如果一開始視頻就明确表示 " 這是對我們研究人員測試過的互動的藝術化呈現 ",大家都不會有異議,因為這類視頻本來就兼具事實和理想色彩。
但是這個視頻叫做 " 與 Gemini 親密互動 ",并标榜是 " 我們最喜歡的互動 ",這實際就是說,視頻中的互動就是真實互動的意思,但實際上并不是。
谷歌甚至沒有說明,視頻中展示的模型是已經上市的 Gemini Pro 版本,還是預計明年發布的 Gemini Ultra。