今天小編分享的科學經驗:LLaMA都在用的開源數據集慘遭下架:包含近20萬本書,對标OpenAI數據集,歡迎閱讀。
開源數據集因侵權問題,慘遭下架。
如 LLaMA、GPT-J 等,都用它訓練過。
如今,托管了它 3 年的網站,一夜之間删除了所有相關内容。
這就是Books3,一個由将近 20 萬本圖書組成的數據集,大小将近 37GB。
丹麥一家反盜版組織表示,在該數據集中發現了 150 本其成員的書籍,構成侵權,所以要求平台下架。
現在該平台上的 Books3 網頁鏈接已經 "404"。
數據集的最初開發者無奈表示,Books3 的下架是開源圈的一場悲劇。
Books3 是什麼?
Books3 在 2020 年發布,由 AI 開發者 Shawn Presser 上傳,被收錄在 Eleuther AI 的開源數據集 Pile 中。
它總計包含 197000 本書,包含來自盜版網站 Bibliotik 的所有書籍,意在對标 OpenAI 的數據集,但主打開源。
這也是Books3名字的來源之處——
GPT-3 發布後,官方披露其訓練數據集中 15% 的内容來自兩個名為 "Books1"、"Books2" 的電子圖書語料庫,不過具體内容一直沒有被透露。
開源的 Books3 則給更多項目提供了一個和 OpenAI 競争的機會。
比如今年爆火的 LLaMA、以及 Eleuther AI 的 GPT-J 等,都用上了 Books3.
要知道,圖書數據一直是大模型預訓練中核心的語料素材,它能為模型輸出高質量長文本提供參考。
很多 AI 巨頭使用的圖書數據集都是不開源,甚至是非常神秘的。比如 Books1/2,關于其來源、規模的了解,更多都是各界猜測。
由此,開源數據集對于 AI 圈内相當重要。
為了更方便獲取,Books3 被放到了 The Eye 上托管。這是一個可以存檔信息、提取公開數據的平台。
而這一次慘遭下架,說的也是這一平台。
丹麥反盜版組織權利聯盟向 The Eye 提出了下架請求,并且通過了。
不過好消息是,Books3 并沒有完全消失,還是有其他辦法獲取的。
作者老哥在推特上給出了多個方法。
" 沒有 Books3 就沒法做自己的 ChatGPT"
實際上,對于這次下架風波,數據集作者老哥有很多話想說。
他談到,想要做出像 ChatGPT 一樣的模型,唯一的方法就是創建像 Books3 這樣的數據集。
每一個盈利性質的公司都在秘密做數據集,如果沒有 Books3,就意味着只有 OpenAI 等科技巨頭才能訪問這些圖書數據,由此你将無法做出自己的 ChatGPT。
在作者看來,ChatGPT 就像是 90 年代的個人網站一樣,任何人都能做是很關鍵的。
不過由于 Books3 很大一部分數據來自于盜版網站,所以作者也表示,希望之後能有人做出來比 Books3 更好的數據集,不僅提升數據質量,而且尊重書籍版權。
這種類似的情況在 OpenAI 也有發生。
一個多月以前,兩位全職作者以未經允許擅自将作品用來訓練 ChatGPT,起訴了 OpenAI。
而之所以會發生這種情況,很有可能是 OpenAI 的數據集 Books2 從影子圖書館(盜版網站)中獲取了大量數據。
所以也有聲音調侃說,AI 不僅帶來了新的技術突破,也給反盜版組織帶來了新任務。
參考鏈接:
[ 1 ] https://www.theatlantic.com/technology/archive/2023/08/books3-ai-meta-llama-pirated-books/675063/
[ 2 ] https://gizmodo.com/anti-piracy-group-takes-ai-training-dataset-books3-off-1850743763
[ 3 ] https://interestingengineering.com/innovation/anti-piracy-group-shuts-down-books3-a-popular-dataset-for-ai-models
[ 4 ] https://torrentfreak.com/anti-piracy-group-takes-prominent-ai-training-dataset-books3-offline-230816/