AIGC“弄髒”互聯網，大模型“課本”遭污染

今天小編分享的互聯網經驗：AIGC“弄髒”互聯網，大模型“課本”遭污染，歡迎閱讀。

圖片來源 @視覺中國

文 | 元宇宙日爆，作者 | 木木，編輯 | 文刀

"AI 制造 " 充斥互聯網，連 " 真人小姐姐 " 也可以批量生成。随着生成式人工智能的爆發，一個可怕的現象出現：AI 正在污染整個互聯網。

知乎成為生成無腦答案的重災區，這些内容描述簡短、概括性十足，細看邏輯混亂、錯誤百出。打開今日頭條，用 ChatGPT 生成的虛假新聞，内容聳人聽聞，足夠博人眼球。

AI 加持下，虛假、無意義、同質化的内容呈指數級增長，獲得大量曝光。萊斯大學和斯坦福大學的科學家研究發現，這些低質、同質化、未經證實的 "AI 語言 " 如果不加以甄别，進一步被抓取作為訓練 AI 的語料，AI 大模型将會走向崩潰。

AIGC" 垃圾 " 泛濫 内容平台成重災區

生成式 AI 越來越低成本化，伴生而來的是 AI 生成信息的 " 垃圾網站 "。

外媒 NewsGuard 發布相關數據報告稱 , 目前已經追蹤到了大約 277 個且還在不斷增加的 " 垃圾網站 "，這些網站生產了大量标題誘餌以優化廣告收入。

類似的情況也發生在國内，表現形式是 AI 生成的低質内容。

" 中文互聯網高質量的問答社區和創作者聚集的原創内容平台 " 知乎，如今成了 AI 無腦答案的重災區，不少答主的内容呈現明顯的 "GPT 風 "，機器翻譯的文字感、混亂的邏輯撲面而來，有時還會出現事實錯誤，特别是在金融、醫學等專業領網域，沒有經驗的人群很容易被誤導。

知乎上的 " 片兒湯話 " 答案

有知乎用戶使用 AI 每隔一兩分鍾就可以輸出一條幾百字的回答。盡管已經被禁言，但其產生的錯誤信息依然遺留在互聯網中。如果你足夠細心，你會發現，自帶 AI 問答功能的搜索引擎 Bing 在中文世界經常會引用知乎的内容。一些生成後就從未過人工核查的錯誤答案被 Bing AI 抓取，造成低質的中文信息蔓延。

AI 對互聯網内容的侵蝕不僅限于文字。在小紅書、淘寶、抖音上，越來越多的 "AI 真人美女 " 的圖片和視頻被批量生產，還有大批 "AI 攝影 " 類賬号的出現。

"AI 美女 " 造就新一代網紅臉‍‍‍‍‍

AI 魔法棒一揮，制作成本低、效率高的 "AI 美女 " 一時間成為電商眼中的香饽饽，AI 模特、AI 主播頻頻出現。" 她們 " 足夠吸睛，但也千篇一律，" 網紅臉 " 的隊伍裡又增加一類 AI 面孔。

如果只是用 AIGC 制造美圖供人評鑑、學習倒也還好，但 AI 生圖工具產生的内容開始侵犯直接與人們生活相關的領網域。

淘寶上，有商家直接用 AI 生成圖來取代商品實物圖，一張由 Midjourney 生成的卡通少女圖，被商家打上 " 綠色襯衫 " 的标籤，售價 218 元。與之風格相似甚至完全相同的 AI 生成圖，在網上随手就可以找到。利用 Midjourney 的墊圖功能，任何人都可以自己生成無數仿照圖，與賣家秀相差甚遠的買家秀将再添槽點。

淘寶商家用 AIGC 網圖（右）描述商品

在中文互聯網，AI 大有無孔不入之勢，專門教人如何用 "AI 寫文賺錢 " 的課程層出不窮，賣課人号稱 " 一套教學視頻跟萬能模板，直接套用 "。AI 話題營造出的失業焦慮中，該類課程受到追捧，曾有人通過賣課月入百萬。

如今，學會了使用 AI 工具的人，将 AI 生成的内容上傳到知乎、今日頭條或者小紅書上，吸引了流量，但也制造了不少低質量、同質化甚至信息虛假的内容垃圾。

那麼，這種 AIGC 内容 " 垃圾 " 會產生危害嗎？

靠 AI 識别真假技術還不行

泛濫的 AIGC 内容加速污染互聯網環境，除了影響人類獲取有效信息的效率外，產出它們的工具 " 大語言模型 " 也會走向崩潰的邊緣。

萊斯大學和斯坦福大學的科學家研究證明，将人工智能生成的内容輸入人工智能模型，會導致輸出質量下跌。

研究人員将這一現象解釋為 " 模型自噬障礙 "（MAD），即如果 AI 只學習其他 AI 生成的内容，在經過幾代訓練後，AI 将輸出無意義的垃圾信息，最終走向 " 模型崩潰 " 這一結果。研究人員表示，對于大語言模型而言，" 數據清潔 " 十分重要。

" 世界正在奔向一個未來：生成式 AI 的爆發，導致了互聯網上的合成數據很快就會超過真實數據。" 按照研究者的說法，區分合成數據與真實數據，無論對人類本身還是大模型發展都變得勢在必行。

最近，中國首個 AIGC 監管檔案《生成式人工智能服務管理暫行辦法》落地，該《辦法》明确指出 AIGC 服務提供者要 " 增強訓練數據的真實性、準确性、客觀性和多樣性 "。

生成式人工智能服務者有義務保證數據質量

在《辦法》的指導下，國内的内容平台也推出針對 AI 生成内容的管理措施，知乎、抖音、小紅書等平台均已發布有關 AIGC 内容的規定。

《抖音關于人工智能生成内容的平台規範暨行業倡議》稱，針對人工智能生成的視頻、圖片和衍生的虛拟人直播，發布者應對人工智能生成内容進行顯著标識，幫助其他用戶區分虛拟與現實，特别是易混淆場景。該《倡議》提到，平台提供統一的人工智能生成内容标識能力，幫助創作者打标，方便用戶區分。同時，平台提供用戶反饋渠道，方便用戶反饋違規的生成内容。

知乎也發布了《關于應用 AIGC 能力進行輔助創作的社區公告》，公告顯示，如果創作者發布 AIGC 生成的内容時，沒有主動使用 " 包含 AI 輔助創作 " 的标籤進行聲明，平台會添加相關标識并限流，同時鼓勵知友對利用 AIGC 技術，擾亂社區秩序的内容和賬号進行舉報，舉報類型裡新增了 "AI 生成内容 " 的選項。

規則出現了，但在實操中出現了 Bug。

知乎用戶反饋原創内容被誤判為 AI 生成

知乎創作者們對平台 " 打标籤 "（審核）的能力表示質疑。有用戶反饋，自己原創的内容被當成了 AI 創作打了 AI 标記，甚至有人因此被禁言。

這種 " 誤判 " 現象背後又隐藏了一個細思極恐的問題。假如平台采用機器來識别 AI，機器對同類的 " 寬容度 " 或許會很高，讓計算機還無法精準識别出 AI 犯的錯誤。

最近，OpenAI 推出的 AI 文本識别工具 AI-Text-Classifier 就因準确率太低而被官方下架。DetectGPT、GPTZero 等 AI 生成檢測工具的失誤率也都高得驚人。

随着 AIGC 技術不斷迭代更新，AI 生成内容将越來越具備迷惑性，想通過 AI 識别工具遏制 AI 内容垃圾的滋生，從技術成果上看成功率還不高。

看來，在充滿人工智能的未來，" 人工 " 有多強大，" 智能 " 才有多強大。在 AIGC 的巨大衝擊下，如何不被内容垃圾裹挾、實現人工與智能的良性共進将成為 AI 下一階段發展的重要挑戰。

更多精彩内容，關注钛媒體微信号（ID：taimeiti），或者下載钛媒體 App