今天小編分享的科技經驗:研究:網絡充斥低質機翻内容,大語言模型訓練需警惕數據陷阱,歡迎閲讀。
IT 之家 2 月 4 日消息,亞馬遜雲計算人工智能實驗室的研究人員發現,網絡上大量内容來自機器翻譯 ( MT ) 生成,這些跨越多種語言的翻譯内容質量普遍較低。研究團隊強調,這凸顯了在訓練大型語言模型 ( LLM ) 時,數據質量和來源考量的重要性。
圖源 Pexels
研究還發現,機器生成内容在資源較少語言的翻譯中很普遍,并占網絡内容的很大一部分。
IT 之家注意到,研究團隊開發了名為多維 cc 矩陣 ( MWccMatrix ) 的龐大資源,以更好地理解機器翻譯内容的特征。該資源包含 90 種語言中 64 億個獨特的句子,并包括翻譯元組,即相互翻譯的一組句子。
這項研究發現大量網絡内容通常被翻譯成多種語言,主要通過機器翻譯完成。這種内容不僅在資源較少語言的翻譯中普遍存在,而且在這些語言的所有網絡内容中也占很大一部分。
研究人員還注意到,出于廣告收入等目的,被翻譯成多種語言的内容存在選擇性偏差。
論文的結論是:" 機器翻譯技術在過去十年裏取得了顯著進步,但仍達不到人類質量水平。多年來,使用當時可用的機器翻譯系統将機器翻譯内容添加到網絡上,因此網絡上大部分機器翻譯内容按照現代标準可能質量很低。這可能會導致 LLM 模型產生更多‘幻覺’ ,而選擇偏差表明即使不考慮機器翻譯錯誤,數據質量也可能較低。數據質量對于 LLM 訓練至關重要,其中高質量的語料庫,如書籍和維基百科文章,通常會進行多次向上采樣。"