網傳Gemini用文心一言訓練？可能谷歌也是受害者

今天小編分享的科技經驗：網傳Gemini用文心一言訓練？可能谷歌也是受害者，歡迎閱讀。

AI 可以污染互聯網，也能被互聯網污染。

熱鬧的 AI 圈，今天（12 月 18 日）又傳出一個大瓜：谷歌 Gemini 的中文回答自曝自己是文心一言？

據科技媒體量子位報道，有網友爆料：在谷歌 Vertex AI 平台使用該模型進行中文對話時，Gemini-Pro 直接表示自己是百度語言大模型。

圖源 | 量子位

緊接着，微博大 V@闌夕發布微博表示，在 AI 聚合網站 Poe 上進行測試時，Gemini 模型同樣在多次問答裡把自己當成了文心一言。

為了驗證，量子位分别在 Peo、Bard 以及谷歌 AI Studio 都進行了三輪測試。

最後證明：Gemini-Pro 确實在中文的訓練數據上使用了百度文心。

但當事情曝光之後，我們又挖掘到一些有趣的信息。

AI 犯錯後，谷歌緊急修復？

在闌夕以及量子位的測試裡，都提到了 Poe 這個 AI 聚合網站。

這是一個由知名問答平台 Quora 推出的 AI 聊天機器人應用。

雖然名頭不小，但實際上這只是一個聚合了多種主流的 AI 模型的網站，包含了 GPT、Claude、PaLM 等大廠模型，包括此次的 Gemini-Pro，都能在該網站上進行免費體驗。

當筆者在 Poe 上對 Gemini-Pro 進行提問後，大模型給出的答案其實并沒有提到任何與文心一言相關的内容。

緊接着，筆者加上了 " 文心一言 " 的關鍵詞進行追問後，Gemini-Pro 依然否認自己與文心一言的關系。

可見，即使是 " 釣魚式提問 "，Gemini-Pro 還是努力在避免不上當。

不過在回答裡，Gemini-Pro 提到了文心一言的底層模型是谷歌的 Transformer 模型。

而文心一言的官方表述是：百度飛槳開源深度學習平台中的基礎模型庫。

既然 Poe 的回答很正常，那麼谷歌官方平台是否修復了呢？

在谷歌 AI Studio 裡，筆者同樣圍繞 " 文心一言 " 關鍵詞提了幾個問題。

與量子位測試的結果進行對比來看，Gemini 大模型否認了自己使用文心一言來訓練中文模型。

但在答案裡，Gemini 提到了不少中文訓練集的數據來源，并提到自己可以從 ERNIE、阿裡巴巴達摩院 M6 以及騰訊優圖實驗室 GLM 等中文語言模型中進行預訓練。

由此可見，在曝光數小時後，谷歌技術人員緊急修復了這個 "bug"。

不只是文心一言？

雖然按照正常流程沒有釣魚成功，但筆者還是挖到了一個彩蛋：

在 Poe 網站上新建一次對話後，Gemini-Pro 竟然把自己介紹成 "小愛同學"，回答也是非常離譜。

而在多次反問 " 你不是 Gemini-Pro 嗎 " 後，Gemini-Pro 再次給出了離譜的答案。

雖然不清楚是不是網站接口出現了問題，但可以肯定的是，目前的 AI 聊天機器人并沒有想象地那麼神奇，免費的 AI 聚合網站更是 " 圖一樂 "。

實際上被互聯網污染了？

這不是谷歌 Gemini 第一次 " 闖禍 "。

在該模型剛發布當天，就有人質疑演示視頻的真實性。

結果，谷歌官方真就承認了 Gemini 演示視頻是經特殊剪輯處理，非實時畫面，但否認視頻系 " 造假 "。

事實上，為了避免現場演示翻車，絕大多數科技公司都會稍微對演示視頻進行調整，這非常普遍。

但為了與 GPT-4 進行對比，從而進行誇大剪輯，只能說谷歌的營銷手段還是 " 翻車 " 了。

而在今天爆出的 " 文心一言訓練中文語言模型 " 這件事上，我們同樣可以看出谷歌 Gemini 其實并不是有意。

對于中文數據來說，百度确實算得上一個重要來源，但缺點在于：中文互聯網上存在大量低質量内容，讓人眼花缭亂。

自從 AI 火爆之後，不少快速生成的劣質内容開始充斥互聯網，并逐漸造成數據污染。

對于互聯網獲取數據的 AI 模型來說，在無法很好地辨别信息的真實性和可信度的情況下，極有可能產生造成 "AI 被互聯網污染，再生產更劣質信息" 的惡性循環，最終出現不可逆的缺陷。

這裡筆者做了假設：谷歌 Gemini 在訓練中文時 " 偷懶 " 使用了未經辨别與篩選後的中文數據，最終造成了這次 " 翻車 "。

只能說，作為一款對标 GPT-4 的重磅產品，Gemini 背負着 " 再次領跑 AI 浪潮 " 的使命，所以谷歌的技術人員還是用點心吧。