今天小編分享的互聯網經驗:研究:反復利用 AI 生成内容來訓練 AI 可造成“模型崩潰”,歡迎閱讀。
據《福布斯》報道,牛津大學的伊利亞 · 舒梅洛夫博士與其團隊發現,當生成式 AI 軟體僅依賴于由 AI 生成的内容時,回答的質量開始惡化。這項研究已經發表在《自然》雜志上。
在最初的兩次查詢後,答案逐漸偏離準确性,到第五次時,質量顯著下降,到了第九次連續查詢時,回答已完全退化為無意義的胡言亂語。研究人員将這種生成式 AI 内容的循環過度使用稱為 " 模型崩潰 ",即 AI 在不斷污染自己的訓練集後,輸出的内容逐漸偏離現實,最終變得毫無價值。
舒梅洛夫表示:" 令人驚訝的是,模型崩潰發生得如此迅速且難以察覺。最初,它會影響到少數數據——那些代表性不足的數據。接着,它會影響輸出的多樣性,導致差異性減少。有時,你會觀察到對多數數據的微小改進,但這種改進掩蓋了少數數據表現的惡化。模型崩潰可能帶來嚴重後果。"
研究人員通過一種方法确定了 " 模型崩潰 " 現象的存在:使用一個預訓練的 AI 驅動的維基百科,然後讓 AI 模型基于自己生成的内容進行更新。受污染數據的影響逐漸導致原本的訓練集被侵蝕,輸出的信息也随之變得難以理解。例如,在第九次查詢循環後,研究中的維基百科條目從關于 14 世紀英國教堂尖頂的内容滑稽地變成了一篇關于各種顏色的短尾兔子的論文。
報道稱,根據亞馬遜網絡服務(Amazon Web Services)團隊在 6 月發布的另一項研究,大約 57% 的網絡文本都經過了 AI 算法的翻譯。如果互聯網上的人類生成數據迅速被 AI 過濾内容覆蓋,且舒梅洛夫的研究發現屬實,那麼 AI 可能正在 " 自我毀滅 " ——并同時 " 毀滅 " 互聯網。
研究得出結論,要實現 AI 的長期可持續發展,唯一方法是确保其能夠訪問現有的非 AI 生成内容,并持續引入新的人工生成内容。