Gemini第一波用戶反饋出來了：不太好！

今天小編分享的互聯網經驗：Gemini第一波用戶反饋出來了：不太好！，歡迎閱讀。

隔夜，在号稱碾壓 GPT-4 的多模态新模型 Gemini 帶動下，谷歌隔夜股價大漲 5%。至少谷歌自己對 Gemini 的能力是非常自信的，在各種宣傳文案裡把 Gemini 吹上了天，放出的演示視頻效果也非常驚豔。

目前，Gemini 的 " 精簡版 "Gemini Pro 已經登陸谷歌 AI 聊天機器人 Bard（僅限英文版）。但根據測試過的用戶在 X 上的反饋，效果似乎沒有那麼理想，在基本事實、數學問題、生成新聞摘要等方面的表現可以說得上拉胯，甚至不如已經發布一年多的 GPT-3.5.

比如，一位用戶向 Gemini 詢問，誰是 2023 年的奧斯卡最佳男主角，得到的是布蘭登 · 格裡森（Brendan Gleeson）這個錯誤的回答，不是真正的獲獎者布蘭登 · 弗雷澤（Brendan Fraser）。

明明完全具備訪問互聯網的能力，但 Gemini 連奧斯卡得主這一随手谷歌一下就知道的基本事實都出錯，着實耐人尋味。

更離譜的是，Techcrunch 記者向 Gemini 提出了同樣的問題，它給出了不同的錯誤答案：奧斯汀 · 巴特勒（Austin Butler）。

而且，如上圖所示，Gemini 在其他獎項上也是一通胡編亂造。

獲得 95 屆奧斯卡最佳紀錄片獎的電影是《納瓦爾尼》，而非《所有的美麗與血淚》，獲得最佳國際影片獎的是《西線無戰事》，但 Gemini 給出的答案也是《所有的美麗與血淚》......

此外，科幻小說作家 Charlie Stross 也在最近發布的一篇博文中發現了更多的謬誤，Gemini Pro 還會編造其他信息，比如說稱 Stross 本人為開發 Linux 内核做出了貢獻，但實際上他從未參與過和 Linux 内核有關的項目。

Techcrunch 記者又要求 Gemini 給出一個 6 個字母的法語單詞，但 Gemini 的回答有 7 個字母。

不過，需要指出的是，華爾街見聞此前文章強調過，涉及控制字元數量的場景一向是 AI 的弱項，這是由于生成式 AI 背後的技術是上下文預測，基礎是 token 而非字元。

華爾街見聞給 ChatGPT 下達了同樣的任務，後者也給出了一個包含 7 個字母的錯誤答案。

在總結新聞方面，Gemini 的表現似乎過度謹慎了——謹慎到影響了基本的使用體驗。

如下圖，一位 X 用戶僅僅是要求它列出巴以衝突的最新情況，并沒有要求 Gemini 做出評判，但 Gemini 卻告訴用戶：

要不你自己家上谷歌搜一下吧。

華爾街見聞嘗試了同樣的問題，也得到了一樣的建議：自己去搜吧！

相比之下，ChatGPT 則給出了一個附有引文的列表式新聞摘要：

不過，有趣的是，當記者提問 Gemini 關于俄烏衝突的最新消息時，Gemini 卻沒有回避，而是生成了一份新聞摘要。但這些信息已經過時一個多月了。

那麼，寫代碼的能力呢？這可是 AI 對人類生產力提升最大的關鍵應用領網域之一。

但 X 用戶的反饋表明，雖然 Gemini 在寫代碼方面比之前版本的 Bard 有所改進，但 Gemini 的基礎代碼能力非常一般，甚至不如比它早得多的 ChatGPT.

另一位 X 用戶測試用 AI 生成一個小遊戲的代碼，結果 ChatGPT 第一次嘗試就寫出了代碼，而 Gemini 需要 3 次。

總結一下，網友測試的反饋大概就是——不如 GPT。

當然，目前能上手使用的 Gemini Pro 并不是 Gemini 性能最強的版本。最強的 Gemini Ultra 要等到明年某個時候才會在谷歌 Bard 和其他產品中推出。谷歌 Gemini Pro 對标的是比它早一代的 GPT-3.5。

顯然，Gemini Pro 還有很大的進步空間。而最強的 Ultra 是不是像谷歌演示的那樣神乎其神？要等到明年才能見分曉了。