今天小編分享的互聯網經驗:Gemini第一波用戶反饋出來了:不太好!,歡迎閱讀。
隔夜,在号稱碾壓 GPT-4 的多模态新模型 Gemini 帶動下,谷歌隔夜股價大漲 5%。至少谷歌自己對 Gemini 的能力是非常自信的,在各種宣傳文案裡把 Gemini 吹上了天,放出的演示視頻效果也非常驚豔。
目前,Gemini 的 " 精簡版 "Gemini Pro 已經登陸谷歌 AI 聊天機器人 Bard(僅限英文版)。但根據測試過的用戶在 X 上的反饋,效果似乎沒有那麼理想,在基本事實、數學問題、生成新聞摘要等方面的表現可以說得上拉胯,甚至不如已經發布一年多的 GPT-3.5.
比如,一位用戶向 Gemini 詢問,誰是 2023 年的奧斯卡最佳男主角,得到的是布蘭登 · 格裡森(Brendan Gleeson)這個錯誤的回答,不是真正的獲獎者布蘭登 · 弗雷澤(Brendan Fraser)。
明明完全具備訪問互聯網的能力,但 Gemini 連奧斯卡得主這一随手谷歌一下就知道的基本事實都出錯,着實耐人尋味。
更離譜的是,Techcrunch 記者向 Gemini 提出了同樣的問題,它給出了不同的錯誤答案:奧斯汀 · 巴特勒(Austin Butler)。
而且,如上圖所示,Gemini 在其他獎項上也是一通胡編亂造。
獲得 95 屆奧斯卡最佳紀錄片獎的電影是《納瓦爾尼》,而非《所有的美麗與血淚》,獲得最佳國際影片獎的是《西線無戰事》,但 Gemini 給出的答案也是《所有的美麗與血淚》......
此外,科幻小說作家 Charlie Stross 也在最近發布的一篇博文中發現了更多的謬誤,Gemini Pro 還會編造其他信息,比如說稱 Stross 本人為開發 Linux 内核做出了貢獻,但實際上他從未參與過和 Linux 内核有關的項目。
Techcrunch 記者又要求 Gemini 給出一個 6 個字母的法語單詞,但 Gemini 的回答有 7 個字母。
不過,需要指出的是,華爾街見聞此前文章強調過,涉及控制字元數量的場景一向是 AI 的弱項,這是由于生成式 AI 背後的技術是上下文預測,基礎是 token 而非字元。
華爾街見聞給 ChatGPT 下達了同樣的任務,後者也給出了一個包含 7 個字母的錯誤答案。
在總結新聞方面,Gemini 的表現似乎過度謹慎了——謹慎到影響了基本的使用體驗。
如下圖,一位 X 用戶僅僅是要求它列出巴以衝突的最新情況,并沒有要求 Gemini 做出評判,但 Gemini 卻告訴用戶:
要不你自己家上谷歌搜一下吧。
華爾街見聞嘗試了同樣的問題,也得到了一樣的建議:自己去搜吧!
相比之下,ChatGPT 則給出了一個附有引文的列表式新聞摘要:
不過,有趣的是,當記者提問 Gemini 關于俄烏衝突的最新消息時,Gemini 卻沒有回避,而是生成了一份新聞摘要。但這些信息已經過時一個多月了。
那麼,寫代碼的能力呢?這可是 AI 對人類生產力提升最大的關鍵應用領網域之一。
但 X 用戶的反饋表明,雖然 Gemini 在寫代碼方面比之前版本的 Bard 有所改進,但 Gemini 的基礎代碼能力非常一般,甚至不如比它早得多的 ChatGPT.
另一位 X 用戶測試用 AI 生成一個小遊戲的代碼,結果 ChatGPT 第一次嘗試就寫出了代碼,而 Gemini 需要 3 次。
總結一下,網友測試的反饋大概就是——不如 GPT。
當然,目前能上手使用的 Gemini Pro 并不是 Gemini 性能最強的版本。最強的 Gemini Ultra 要等到明年某個時候才會在谷歌 Bard 和其他產品中推出。谷歌 Gemini Pro 對标的是比它早一代的 GPT-3.5。
顯然,Gemini Pro 還有很大的進步空間。而最強的 Ultra 是不是像谷歌演示的那樣神乎其神?要等到明年才能見分曉了。