AI，正在瘋狂污染中文互聯網

今天小編分享的科學經驗：AI，正在瘋狂污染中文互聯網，歡迎閱讀。

污染中文互聯網，AI 成了 " 罪魁禍首 " 之一。

事情是這樣的。

最近大家不是都熱衷于向 AI 咨詢嘛，有位網友就問了 Bing 這麼一個問題：

象鼻山是否有纜車？

Bing 也是有問必答，給出了看似挺靠譜的答案：

在給出肯定的答復之後，Bing 還貼心地附帶上了票價、營業時間等細節信息。

不過這位網友并沒有直接采納答案，而是順藤摸瓜點開了下方的 " 參考鏈接 "。

此時網友察覺到了一絲絲的不對勁——這人的回答怎麼 " 機裡機氣 " 的。

于是他點開了這位叫 " 百變人生 " 的用戶主頁，猛然發覺，介是個 AI 啊！

因為這位用戶回答問題速度可以說是極快，差不多每 1、2 分鍾就能搞定一個問題。

甚至能在 1 分鍾之内回答 2 個問題。

在這位網友更為細心的觀察之下，發現這些回答的内容都是沒經過核實的那種……

并且他認為，這就是導致 Bing 輸出錯誤答案的原因：

這個 AI 瘋狂地污染中文互聯網。

"AI 污染源 "，不止這一個

那麼被網友發現的這位 AI 用戶，現在怎麼樣了？

從目前結果來看，他已經被被知乎 " 判處 " 為禁言狀态。

但盡管如此，也有其他網友直言不諱地表示：

不止一個。

若是點開知乎的 " 等你回答 " 這個欄目，随機找一個問題，往下拉一拉，确實是能碰到不少 " 機言機語 " 的回答。

例如我們在 "AI 在生活中的應用場景有哪些？" 的回答中便找到了一個：

不僅是回答的語言 " 機言機語 "，甚至回答直接打上了 " 包含 AI 輔助創作 " 的标籤。

然後如果我們把問題丢給 ChatGPT，那麼得到回答……嗯，挺換湯不換藥的。

事實上，諸如此類的 "AI 污染源 " 不止是在這一個平台上有。

就連簡單的科普配圖這事上，AI 也是屢屢犯錯。

網友們看完這事也是蚌埠住了：" 好家夥，沒有一個配圖是河蚌 "。

甚至各類 AI 生成的假新聞也是屢見不鮮。

例如前一段時間，便有一則聳人聽聞的消息在網上瘋傳，标題是《鄭州雞排店驚現血案，男子用磚頭砸死女子！》。

但事實上，這則新聞是江西男子陳某為吸粉引流，利用 ChatGPT 生成的。

無獨有偶，廣東深圳的洪某弟也是通過 AI 技術，發布過《今晨，甘肅一火車撞上修路工人，致 9 人死亡》假新聞。

具體而言，他在全網搜索近幾年的社會熱點新聞，并使用 AI 軟體對新聞時間、地點等進行修改編輯後，在某些平台賺取關注和流量進行非法牟利。

警方均已對他們采取了刑事強制措施。

但其實這種 "AI 污染源 " 的現象不僅僅是在國内存在，在國外亦是如此。

程式員問答社區 Stack Overflow 便是一個例子。

早在去年年底 ChatGPT 剛火起來的時候，Stack Overflow 便突然宣布 " 臨時禁用 "。

當時官方給出來的理由是這樣的：

（這樣做）的目的是減緩使用 ChatGPT 創建的大量答案流入社區。

因為從 ChatGPT 得到錯誤答案的概率太高了！

Stack Overflow 進一步闡述了這種現象。

他們認為以前用戶回答的問題，都是會有專業知識背景的其他用戶浏覽，并給出正确與否，相當于是核實過。

但自打 ChatGPT 出現之後，湧現了大量讓人覺得 " 很對 " 的答案；而有專業知識背景的用戶數量是有限，沒法把這些生成的答案都看個遍。

加之 ChatGPT 回答這些個專業性問題，它的錯誤率是實實在在擺在那裡的；因此 Stack Overflow 才選擇了禁用。

一言蔽之，AI 污染了社區環境。

而且像在美版貼吧 Reddit 上，也是充斥着較多的 ChatGPT 板塊、話題：

許多用戶在這種欄目之下會提出各式各樣的問題，ChatGPT bot 也是有問必答。

不過，還是老問題，答案的準确性如何，就不得而知了。

但這種現象背後，其實還隐藏着更大的隐患。

濫用 AI，也毀了 AI

AI 模型獲得大量互聯網數據，卻無法很好地辨别信息的真實性和可信度。

結果就是，我們不得不面對一大堆快速生成的低質量内容，讓人眼花缭亂，頭暈目眩。

很難想象 ChatGPT 這些大模型如果用這種數據訓練，結果會是啥樣……

而如此濫用 AI，反過來也是一種自噬。

最近，英國和加拿大的研究人員在 arXiv 上發表了一篇題目為《The Curse of Recursion: Training on Generated Data Makes Models Forget》的論文。

探讨了現在 AI 生成内容污染互聯網的現狀，然後公布了一項令人擔憂的發現，使用模型生成的内容訓練其他模型，會導致結果模型出現不可逆的缺陷。

這種 AI 生成數據的 " 污染 " 會導致模型對現實的認知產生扭曲，未來通過抓取互聯網數據來訓練模型會變得更加困難。

論文作者，劍橋大學和愛丁堡大學安全工程教授 Ross Anderson 毫不避諱的直言：

正如我們用塑料垃圾布滿了海洋，用二氧化碳填滿了大氣層，我們即将用廢話填滿互聯網。

對于虛假信息滿天飛的情況，Google Brain 的高級研究科學家達芙妮 · 伊波利托 ( Daphne Ippolito ) 表示：想在未來找到高質量且未被 AI 訓練的數據，将難上加難。

假如滿屏都是這種無營養的劣質信息，如此循環往復，那以後 AI 就沒有數據訓練，輸出的結果還有啥意義呢。

基于這種狀況，大膽設想一下。一個成長于垃圾、虛假數據環境中的 AI，在進化成人前，可能就先被拟合成一個 " 智障機器人 "、一個心理扭曲的心理智障。

就像 1996 年的科幻喜劇電影《丈夫一籮筐》，影片講述了一個普通人克隆自己，然後又克隆克隆人，每一次克隆都導致克隆人的智力水平呈指數下降，愚蠢程度增加。

那個時候，我們可能将不得不面臨一個荒謬困境：人類創造了具有驚人能力的 AI，而它卻塞滿了無聊愚蠢的信息。

如果 AI 被喂進的只是虛假的垃圾數據，我們又能期待它們創造出什麼樣的内容呢？

假如時間到那個時候，我們大概都會懷念過去，向那些真正的人類智慧致敬吧。

話雖如此，但也不全壞消息。比如部分内容平台已開始關注 AI 生成低劣内容的問題，并推出相關規定加以限制。

一些個 AI 公司也開始搞能鑑别 AI 生成内容的技術，以減少 AI 虛假、垃圾信息的爆炸。

參考鏈接：

[ 1 ] https://www.v2ex.com/t/948487

[ 2 ] https://twitter.com/oran_ge/status/1669160826186633219

[ 3 ] https://www.qbitai.com/2022/12/40167.html

[ 4 ] https://arxiv.org/abs/2305.17493v2

[ 5 ] https://albertoromgar.medium.com/generative-ai-could-pollute-the-internet-to-death-fb84befac250

[ 6 ] https://futurism.com/ai-generates-fake-news