今天小編分享的科技經驗:ChatGPT,能成為新的「維基百科」嗎?,歡迎閱讀。
22 年前,2001 年初,維基百科 Wikipedia 橫空出世,在其後的互聯網時代,成為人們獲取知識的重要平台。
但在剛開始,人們對維基「人人可編輯」的組織形式產生過質疑。甚至有電視主持人諷刺其為「wikiality」,即如果在維基百科上編造條目,只要有足夠多的人同意,它就會成為現實。
後來,随着《自然》(Nature)雜志的調查研究,發現維基百科準确度接近大英百科全書,Google 開始把維基百科放到搜索結果的首項,維基社區和内容貢獻者也持續壯大,維基百科用了很多年時間終于取得了公眾的信任。
誕生之初遭到質疑,越來越多人參與去完善,而後平反收到大眾認可,繼而成為日常的工具,這一過程,僅誕生半年的 ChatGPT 正在經歷,不僅于此,它還成為了維基百科的挑戰者。
不久前,維基媒體基金會召開 2023-2024 年度計劃的電話會議,會議中提及了 35 次 AI,讨論的主題也是圍繞 ChatGPT 帶來的挑戰。
但維基百科所擔心的挑戰,并不是被 ChatGPT 取代。而是更深刻地考驗:未來的維基百科,會由 ChatGPT 來撰寫嗎?
維基百科的内容哪裡來的?
要想知道 ChatGPT 能否撰寫維基百科,得先知道維基百科目前内容來源于哪裡。
維基百科主要是由來自互聯網上的志願者共同合作編寫而成,任何使用網絡進入維基百科的用戶都可以編寫和修改裡面的文章。它是互聯網上一個極大的自由内容、公開編輯、多語言的網絡百科全書協作計劃。
截至 2021 年初,所有語種的維基百科條目數量達 5500 萬條,如何确保内容上的準确,全靠維基社群志願者們的篩查。
在 ChatGPT 出現前,維基百科已經長期在用 AI 去減少一些人力成本。應用最多的就是把現有條目直接機器翻譯,再由人工編輯校對。
2016 年時,資深科學家 Aaron Halfaker 開發了一套開源機器學習算法,可以自動識别維基百科裡那些惡意破壞條目和編輯假消息的行為;2020 年,MIT 的研究人員也為維基百科推出過基于 AI 的修改功能,可以精确定位維基百科句子中的特定信息,并自動替換為類似于人類編輯的語言。
Wikipedia 關于 ChatGPT 的頁面|Wikipedia
以及如維基社群所述,人工智能非常擅長總結把一篇很長的技術類條目,總結成兒童都能理解的版本,讓 AI 去生成兒童版的維基百科效果很好。
翻譯、檢查、概括簡化已有内容,維基百科一直以來對 AI 的應用僅限于此,直到大型語言模型 ChatGPT 的出現。
目前仍以文字方式互動為主的 ChatGPT,除了回答用戶直接的提問以外,還可以用于甚為復雜的語言工作,包括自動生成文本、自動問答、自動摘要等等。
ChatGPT 可以寫出相似真人的文章,并在許多知識領網域給出詳細和清晰的回答。哪怕 ChatGPT 生成内容的事實準确度還需要人工去二次查閱,但這時維基百科面臨的問題已經很明顯了:志願者能否用 ChatGPT 來撰寫維基百科條目?
能不能和想不想
紐約市維基媒體分會的老維基人 Richard Knipel 就用 ChatGPT 在維基百科上起草了一個名為「藝術作品标題」的新條目,Knipel 表示,ChatGPT 給出的版本一般但語法正确,定義了藝術作品标題的概念,給出了從古至今的例子。他在草稿基礎上只做了輕微修改。
但另一位編輯在條目上标注,将會進行大量修改并完善。如今,我們再點進這一條目,會發現它增加了大量内容和理論索引,還梳理出了目錄,給出了圖片案例。像 Knipel 這樣的維基人認為,ChatGPT 可以作為生成維基百科條目草稿、骨架的工具,在此基礎上,人工再驗證内容,編輯和充實條目。
但另一派維基人則認為,在維基百科條目的創作裡 ChatGPT 應該完全被禁用。一位維基百科編輯就表示「我們應該強烈呼籲不使用 AI 工具來生成條目草稿,即使這些條目随後會被人工審閱。ChatGPT 太擅長引入那些看起來很有道理的謊言。」
ChatGPT 起草,人工簡單編輯的版本|Wikipedia
人工大量幹預後產生的版本|Wikipedia
但另一派也反駁這種說法,就像 Knipel 認為,修改并豐富不完善的信息,這就是維基百科在實踐中一直運作的方式。ChatGPT 将繼續存在并飛速發展,利用它同時強調人工幹預的必要性怎麼就不行呢?把 ChatGPT 上來就視作洪水猛獸實在有些偏頗。
但在想不想之前,我們先看看能不能。ChatGPT 還夠不夠格直接編寫維基百科呢?
3 月 30 日時,維基百科創始人 Jimmy Wales 在接受 Evening Standard 采訪時讨論了這個議題。Wales 認為,讓 ChatGPT 能獨立寫一個完整的維基條目,目前還有一段距離,但距離多遠就難說了。「ChatGPT 的一大問題是會胡編亂造,業内把這種情況稱為 hallucinating(幻覺)——我稱之為編瞎話。」(One of the issues with the existing ChatGPT is what they call in the field 『hallucinating』— I call it lying.)
「ChatGPT 有一種憑空捏造的傾向,這對維基百科來說真的不太行。」Wales 在采訪裡說道。實踐中也是如此,你在維基百科上搜一個詞,維基百科可能會反饋「該條目不存在」,但你問 ChatGPT,它可能會給你生成一段沒由頭的假消息。
ChatGPT 會「說瞎話」,這種事已經不新鮮了。但 ChatGPT 誕生僅半年,它的自我迭代能力已經令人咋舌,讓 ChatGPT「句句吐真言」,似乎只是時間問題,那維基百科現在擔憂的是什麼呢?
人力有限,算力「無限」
維基百科團隊并沒有那麼擔心内容到底來源于人類還是 AI,它擔心的是内容質量是否過關。
在維基媒體基金會在電話會議總結報告裡,「挑戰」被放到了開篇,其中最大比重的部分,也是維基百科團隊最大的擔憂在于:維基百科湧入大量 AI 生成的内容,把真正高質量的、正确的信息給淹沒了。
「Wiki 項目有大量高質量的、可靠的,結構化的、分類好的内容。這就是我們帶給世界的價值。最讓我害怕的不是人們使用 GPT 之類的大語言模型來獲取知識,而是需要巡查的 AI 生成的内容會爆炸式增長。」
對高質量内容來說,創作比消費的時間成本高很多,就像一篇較為完整的維基條目,需要許多人參與撰寫,花許多時間,走過很多流程後完成,對讀者來說幾分鍾就閱讀完了。
像維基百科這種平台,為了保證内容質量,還需要專業人士核查一條條目中每個信息、數據、引用是否來源準确,篩查和編輯的成本同樣很高。因此 AI 生成内容越多,人工核查的時間也更長。而且哪怕 ChatGPT 給出了正确的結論,但它并不會直接給出結論的論據來源何處,人工還需要再找到論據。到最後,修正可能比撰寫耗時更長。
Wikipedia 的條目下會有很多延展閱讀鏈接|Wikipedia
目前維基百科志願者們已經發現了許多 ChatGPT 自動生成内容上的問題。比如 ChatGPT 很容易太籠統地概括定義,導致表意不明。還有 ChatGPT 遣詞造句過于肯定,不夠匹配維基百科想呈現的客觀中性的文字風格。
最重要的是信源難以查詢,維基百科的可信度和擴展閱讀性,很大程度上是基于條目底下豐富的信息參考來源,但 ChatGPT 不會主動提供參考,甚至會憑空捏造。
擔任了 20 年維基百科志願編輯的 Andrew Lih 在用 ChatGPT 起草新條目時就發現,ChatGPT 概述定義做得很不錯,但它所提供的消息來源于《福布斯》、《衛報》、《今日心理學》,但 Lih 仔細查閱後發現,這些信源文章并不存在,甚至 ChatGPT 給出的 URL 都是自動生成找不到頁面的假鏈接。
綜上,維基百科團隊直接表示,AI 生成内容的速度和效率,可能會超出項目的運行能力。
除此之外,還有許多維基百科團隊會擔心的點,比如如今的維基百科貢獻者裡,使用英語的白人男性依舊是主體,維基内容已帶有語言和内容偏見,ChatGPT 靠吸納互聯網信息為養料的 AI 機器,生成出的内容會進一步放大偏見。
Wikipedia 聯合創始人 Jimmy Wales 在接受 Standard 采訪時談及 AI 參與撰寫維基的問題|Standard.co
維基百科團隊也無法把握志願者對 AI 工具使用的傾向。Lih 就認為,維基人不缺動力,缺的是時間,ChatGPT 生成的糟糕草稿,可以激發維基志願者的修改欲。這也符合維基之父 Ward Cunningham 所提出的「坎寧安定律」:在互聯網上得到優秀答案的最佳方法不是去提問,而是發布一個錯誤的答案。
維基百科團隊還擔心,當維基百科充斥着 AI 生成的内容時,用戶們會降低對它信息的信任度,轉而去信任更有「人類作者」标識的媒體内容,比如會出鏡的視頻,标記了作者的媒體報刊。
就不能共存嗎
維基百科和 ChatGPT 有很多相似性,比如都以文本為主,試圖「回答一切」。但二者最顯著的區别,在于回答方式的不同。
維基百科是有框架、系統、詳細索引的百科式信息,你點進一個條目,可以從最簡單的概括式介紹了解到其歷史的變化,通過條目裡豐富的擴展鏈接,可以在縱向裡深入了解,也能在橫向裡在不同條目之間跳轉,擴展對一整個領網域的了解。
ChatGPT 目前呈現出的還是提問式的互動,需要用戶明确了解自己想知道的問題,向外擴展也是需要建立在 ChatGPT 給出的回答之上,進一步詢問。
不同用戶獲取信息的傾向不同,選擇工具也不同,維基百科無法做到 ChatGPT 一樣能回答非常具體的問題,ChatGPT 也不會像維基百科一樣有那麼精準且梳理好的知識類信息。這二者的使用方式,就像我們選擇閱讀教科書,還是直接向教授提問。
就像維基百科并沒有因為搜索引擎 Google 的崛起而磨滅,反而它會出現在 Google 搜索結果的第一條和邊欄上。
維基百科團隊也并沒有如 Google 一般有那麼大的危機感,在年度會議裡,雖然開篇點了 ChatGPT 帶來的挑戰,但整個會議更多的時間留給了「機會」。
「當互聯網上有大量 AI 生成的内容時會發生什麼?在一個由數萬億個低質量、低可信度的頁面組成的互聯網,創建大模型的人和用戶都需要去找到可靠的信息,他們可能會更多地使用維基百科。」這就是維基人眼中的「機會」。
利用大語言模型去查 bug、翻譯、内容總結、豐富媒體形式,比如 GPT-4 中體現的視頻生成,AI 生成的圖片也可以放到很多抽象概念的條目裡,增加可讀性,還可以在文本和語音之間互相轉換。
但以上的前提,都是不能讓大語言模型打打輔助,不能喧賓奪主。「維基百科是關于人類聚集在一起試圖定義真相。這些工具不可靠,會分散我們對實際任務的注意力。我們應該小心要以多快的速度追趕這一趨勢,而不是放棄它。我們應該關注創造知識的人。」
維基百科團隊的态度,也折射了我們當下對 AI 的審慎态度。沒有被取代,想充分利用 AI 的同時不夠信任它,想發揮 AI 的最大價值,但真正有價值的内容又不敢輕易交付,難以放下人類本位的核心概念,謹慎地靠近,小心地追趕。
維基百科如何和大語言模型共存,或許就回答了我們人類如何與 AI 共存。