今天小編分享的科技經驗:人工智能寫作檢測工具不靠譜,美國憲法竟被認為是機器人寫的,歡迎閱讀。
IT 之家 7 月 16 日消息,近日有網友發現,如果将美國最重要的法律檔案美國憲法輸入一些專門用來檢測人工智能寫作的工具中,會得到一個令人驚訝的結果:美國憲法幾乎肯定是由人工智能寫的。除非詹姆斯・麥迪遜(美國第四任總統," 美國憲法之父 ")是個穿越者,否則這顯然是不可能的。那麼為什麼這些 AI 檢測工具會出現這樣的錯誤呢?外媒 Arstechnica 采訪了幾位專家,以及 AI 檢測工具 GPTZero 的開發者,來揭開其中的原因。
在教育領網域,人工智能寫作引發了不少争議。長期以來,教師們依賴于傳統的教學方法,将論文作為衡量學生對某一主題掌握程度的工具。很多老師試圖依靠 AI 工具來檢測 AI 生成的寫作,但迄今為止的證據表明,它們并不可靠。由于存在誤報的情況,AI 檢測工具如 GPTZero、ZeroGPT 和 OpenAI 的文本分類器都不靠譜,不能用來判斷文章是否是由大型語言模型(LLM)生成的。
當将美國憲法的一部分輸入 GPTZero 時,GPTZero 會稱這段文字 " 很可能完全由 AI 寫成 "。在過去的六個月裡,其他 AI 檢測工具顯示出類似結果的截圖多次在社交媒體上瘋傳。實際上,如果輸入《聖經》中的一些内容,也會出現同樣的情況。要解釋為什麼這些工具會犯這樣明顯的錯誤,我們首先需要了解它們是如何工作的。
據 IT 之家了解,不同的人工智能寫作檢測器使用略有不同的檢測方法,但基本原理相似:通過一個人工智能模型,在大量文本(包括數百萬個寫作示例)和一套假定的規則(用來确定寫作是更可能由人類還是人工智能生成)上進行了訓練。
例如,GPTZero 的核心是一個神經網絡,它在 " 一個大型、多樣化的語料庫上進行了訓練,該語料庫包括人類寫作和人工智能生成的文本,重點是英語散文 "。接下來,該系統使用 " 困惑度 " 和 " 突發性 " 等屬性來評估文本并進行分類。
在機器學習中,困惑度是衡量一段文本與一個人工智能模型在訓練過程中所學習内容之間偏離程度的指标。測量困惑度的思路是,當人工智能模型寫作時,它們會自然地選擇它們最熟悉的内容,這些内容來自于它們的訓練數據。輸出越接近訓練數據,困惑度就越低。人類則是更混亂的寫作者,人類也可以用低困惑度來寫作,尤其是當模仿法律或某些類型的學術寫作中使用的正式風格時。而且,我們使用的很多短語都出奇地常見。
比如說,我們要猜測這個短語中的下一個詞:" 我想要一杯 _____。" 大多數人會用 " 水 "、" 咖啡 " 或 " 茶 " 來填空。一個在大量英語文本上進行訓練的語言模型也會這樣做,因為這些短語在英語寫作中經常出現,這些結果中的任何一個都會有很低的困惑度。
GPTZero 測量的文本的另一個屬性是 " 突發性 ",它是指某些單詞或短語快速連續出現或在文本中 " 突發 " 的現象。本質上,突發性評估整個文本中句子長度和結構的可變性。人類作家經常表現出動态的寫作風格,導致文本具有可變的句子長度和結構,而人工智能生成的文本往往更加一致和統一。然而,突發性也不是檢測人工智能生成内容的萬無一失的指标。與 " 困惑度 " 一樣,也有例外。人類作家可能會以高度結構化、一致的風格寫作,從而導致突發性得分較低。相反,人工智能模型可以經過訓練,在句子長度和結構上模拟更接近人類的可變性,從而提高其突發性得分。事實上,随着人工智能語言模型的改進,研究表明它們的寫作看起來越來越像人類的寫作。