今天小编分享的科学经验:LLaMA都在用的开源数据集惨遭下架:包含近20万本书,对标OpenAI数据集,欢迎阅读。
开源数据集因侵权问题,惨遭下架。
如 LLaMA、GPT-J 等,都用它训练过。
如今,托管了它 3 年的网站,一夜之间删除了所有相关内容。
这就是Books3,一个由将近 20 万本图书组成的数据集,大小将近 37GB。
丹麦一家反盗版组织表示,在该数据集中发现了 150 本其成员的书籍,构成侵权,所以要求平台下架。
现在该平台上的 Books3 网页链接已经 "404"。
数据集的最初开发者无奈表示,Books3 的下架是开源圈的一场悲剧。
Books3 是什么?
Books3 在 2020 年发布,由 AI 开发者 Shawn Presser 上传,被收录在 Eleuther AI 的开源数据集 Pile 中。
它总计包含 197000 本书,包含来自盗版网站 Bibliotik 的所有书籍,意在对标 OpenAI 的数据集,但主打开源。
这也是Books3名字的来源之处——
GPT-3 发布后,官方披露其训练数据集中 15% 的内容来自两个名为 "Books1"、"Books2" 的电子图书语料库,不过具体内容一直没有被透露。
开源的 Books3 则给更多项目提供了一个和 OpenAI 竞争的机会。
比如今年爆火的 LLaMA、以及 Eleuther AI 的 GPT-J 等,都用上了 Books3.
要知道,图书数据一直是大模型预训练中核心的语料素材,它能为模型输出高质量长文本提供参考。
很多 AI 巨头使用的图书数据集都是不开源,甚至是非常神秘的。比如 Books1/2,关于其来源、规模的了解,更多都是各界猜测。
由此,开源数据集对于 AI 圈内相当重要。
为了更方便获取,Books3 被放到了 The Eye 上托管。这是一个可以存档信息、提取公开数据的平台。
而这一次惨遭下架,说的也是这一平台。
丹麦反盗版组织权利联盟向 The Eye 提出了下架请求,并且通过了。
不过好消息是,Books3 并没有完全消失,还是有其他办法获取的。
作者老哥在推特上给出了多个方法。
" 没有 Books3 就没法做自己的 ChatGPT"
实际上,对于这次下架风波,数据集作者老哥有很多话想说。
他谈到,想要做出像 ChatGPT 一样的模型,唯一的方法就是创建像 Books3 这样的数据集。
每一个盈利性质的公司都在秘密做数据集,如果没有 Books3,就意味着只有 OpenAI 等科技巨头才能访问这些图书数据,由此你将无法做出自己的 ChatGPT。
在作者看来,ChatGPT 就像是 90 年代的个人网站一样,任何人都能做是很关键的。
不过由于 Books3 很大一部分数据来自于盗版网站,所以作者也表示,希望之后能有人做出来比 Books3 更好的数据集,不仅提升数据质量,而且尊重书籍版权。
这种类似的情况在 OpenAI 也有发生。
一个多月以前,两位全职作者以未经允许擅自将作品用来训练 ChatGPT,起诉了 OpenAI。
而之所以会发生这种情况,很有可能是 OpenAI 的数据集 Books2 从影子图书馆(盗版网站)中获取了大量数据。
所以也有声音调侃说,AI 不仅带来了新的技术突破,也给反盗版组织带来了新任务。
参考链接:
[ 1 ] https://www.theatlantic.com/technology/archive/2023/08/books3-ai-meta-llama-pirated-books/675063/
[ 2 ] https://gizmodo.com/anti-piracy-group-takes-ai-training-dataset-books3-off-1850743763
[ 3 ] https://interestingengineering.com/innovation/anti-piracy-group-shuts-down-books3-a-popular-dataset-for-ai-models
[ 4 ] https://torrentfreak.com/anti-piracy-group-takes-prominent-ai-training-dataset-books3-offline-230816/