LLaMA都在用的开源数据集惨遭下架：包含近20万本书，对标OpenAI数据集 - 大酷樂

今天小编分享的科学经验：LLaMA都在用的开源数据集惨遭下架：包含近20万本书，对标OpenAI数据集，欢迎阅读。

开源数据集因侵权问题，惨遭下架。

如 LLaMA、GPT-J 等，都用它训练过。

如今，托管了它 3 年的网站，一夜之间删除了所有相关内容。

这就是Books3，一个由将近 20 万本图书组成的数据集，大小将近 37GB。

丹麦一家反盗版组织表示，在该数据集中发现了 150 本其成员的书籍，构成侵权，所以要求平台下架。

现在该平台上的 Books3 网页链接已经 "404"。

数据集的最初开发者无奈表示，Books3 的下架是开源圈的一场悲剧。

Books3 是什么？

Books3 在 2020 年发布，由 AI 开发者 Shawn Presser 上传，被收录在 Eleuther AI 的开源数据集 Pile 中。

它总计包含 197000 本书，包含来自盗版网站 Bibliotik 的所有书籍，意在对标 OpenAI 的数据集，但主打开源。

这也是Books3名字的来源之处——

GPT-3 发布后，官方披露其训练数据集中 15% 的内容来自两个名为 "Books1"、"Books2" 的电子图书语料库，不过具体内容一直没有被透露。

开源的 Books3 则给更多项目提供了一个和 OpenAI 竞争的机会。

比如今年爆火的 LLaMA、以及 Eleuther AI 的 GPT-J 等，都用上了 Books3.

要知道，图书数据一直是大模型预训练中核心的语料素材，它能为模型输出高质量长文本提供参考。

很多 AI 巨头使用的图书数据集都是不开源，甚至是非常神秘的。比如 Books1/2，关于其来源、规模的了解，更多都是各界猜测。

由此，开源数据集对于 AI 圈内相当重要。

为了更方便获取，Books3 被放到了 The Eye 上托管。这是一个可以存档信息、提取公开数据的平台。

而这一次惨遭下架，说的也是这一平台。

丹麦反盗版组织权利联盟向 The Eye 提出了下架请求，并且通过了。

不过好消息是，Books3 并没有完全消失，还是有其他办法获取的。

作者老哥在推特上给出了多个方法。

" 没有 Books3 就没法做自己的 ChatGPT"

实际上，对于这次下架风波，数据集作者老哥有很多话想说。

他谈到，想要做出像 ChatGPT 一样的模型，唯一的方法就是创建像 Books3 这样的数据集。

每一个盈利性质的公司都在秘密做数据集，如果没有 Books3，就意味着只有 OpenAI 等科技巨头才能访问这些图书数据，由此你将无法做出自己的 ChatGPT。

在作者看来，ChatGPT 就像是 90 年代的个人网站一样，任何人都能做是很关键的。

不过由于 Books3 很大一部分数据来自于盗版网站，所以作者也表示，希望之后能有人做出来比 Books3 更好的数据集，不仅提升数据质量，而且尊重书籍版权。

这种类似的情况在 OpenAI 也有发生。

一个多月以前，两位全职作者以未经允许擅自将作品用来训练 ChatGPT，起诉了 OpenAI。

而之所以会发生这种情况，很有可能是 OpenAI 的数据集 Books2 从影子图书馆（盗版网站）中获取了大量数据。

所以也有声音调侃说，AI 不仅带来了新的技术突破，也给反盗版组织带来了新任务。

参考链接：

[ 1 ] https://www.theatlantic.com/technology/archive/2023/08/books3-ai-meta-llama-pirated-books/675063/

[ 2 ] https://gizmodo.com/anti-piracy-group-takes-ai-training-dataset-books3-off-1850743763

[ 3 ] https://interestingengineering.com/innovation/anti-piracy-group-shuts-down-books3-a-popular-dataset-for-ai-models

[ 4 ] https://torrentfreak.com/anti-piracy-group-takes-prominent-ai-training-dataset-books3-offline-230816/

熱門排行

于正这是拼了，新剧“九男追一女”，古謝飛揚 | 2025-02-25
小米憋了 5 年的重磅新品官宣！价格習又夏 | 2025-02-25
充电桩被涂上“纳粹”字样，特斯拉称賁芳蕤 | 2025-02-25
加拉塔萨雷官方：将就穆里尼奥种族主佼昌翰 | 2025-02-25
英特尔推出搭载至强6处理器的卓越A 幸聽楓 | 2025-02-25
欧洲电动车行业组织敦促欧盟勿放宽甄正浩 | 2025-02-25
DeepSeek引发推理侧革命，火山引擎凭賁芳蕤 | 2025-02-25
美乌矿产協定要定了？特朗普：很快与泽寸飛蘭 | 2025-02-25
三部门2025年计划支持75个试点县，农謝飛揚 | 2025-02-25
59岁曾华倩，还会怀念62岁梁朝伟吗？惠惠君 | 2025-02-25
高露现身上海虹桥机场黑色外套点缀亮色爱心装饰俏皮亮眼惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：处理器更新为天玑9200+ 安卓最强芯袁曼雁 | 2023-05-05
“懒癌”发病率上升，定期体检别忽视幸聽楓 | 2023-05-02
宋慧乔获百想视后韩素希发图手动加爱心表情庆祝賁芳蕤 | 2023-05-02
十年了，他们终于要HE！惠惠君 | 2023-05-07
曹操墓，里面都有啥？衛青柏 | 2023-05-02
中央部署经济工作，释放5大信号郜萌運 | 2023-05-02
陈自瑶抱病为爱女做蛋糕庆生，王浩信点赞没露面賁芳蕤 | 2023-05-02
高德上线手机弯道会车预警功能習又夏 | 2023-05-02
高端国产车：军车血统，目前电动车越野的“天花板”？謝飛揚 | 2023-05-02
等比例长大的童星，李兰迪算一个郟君昊 | 2023-05-02
这些被抓来做实验的流浪狗，最终拯救了无数糖尿病人集玲琳 | 2023-05-02
《云襄传》终于抬上来啦，男O女A让人好上头！集玲琳 | 2023-05-02
21家A股游戏公司2022年收入651亿今年“游戏+AI”能否逆风翻盘？衛青柏 | 2023-05-04
信用风险释放趋缓，结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望袁曼雁 | 2023-05-02
与周立波夫妇闹纠纷成老赖，唐爽被司法拘留15日寸飛蘭 | 2023-05-05
普京签署总统令，批准对俄刑法典相关法条的修正案集玲琳 | 2023-05-02
中银证券给予南京银行增持评级袁曼雁 | 2023-05-03
解除资格！停止一切合作佼昌翰 | 2023-05-02
前董事长被免，天山生物全面进入“中植系”时代？股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
3699起联想小新mini主机上架 13代酷睿标压处理器習又夏 | 2023-05-05
狂吼11次“让一下”！交警咆哮开道嘶吼到吐寸飛蘭 | 2023-05-03
疯成这样，怎么还能被全网吹捧？郜萌運 | 2023-05-02
摩根大通收购美国第一共和银行謝飛揚 | 2023-05-02
台剧赢麻了，又来一部8.9 衛青柏 | 2023-05-02
下降45分，上涨35分！34所自划线院校复试分数线涨幅汇总袁曼雁 | 2023-05-07
事关农村土地承包和农民权益，《农村土地承包合同管理办法》5月1日起施行郟君昊 | 2023-05-02
五一档没一个能打的集玲琳 | 2023-05-05
"三高"已盯上青少年，做好这件事是关键習又夏 | 2023-05-05
恐怖韩剧下神坛，这次胆小可入袁曼雁 | 2023-05-05
这剧是不是用ChatGPT写的呀？惠惠君 | 2023-05-02
性骚扰惯犯，滚出娱乐圈謝飛揚 | 2023-05-05
48岁何炅自曝已老花眼，黄磊睡前认老，《向往的生活》证实将停办佼昌翰 | 2023-05-02
200户连夜疏散，原因让人愤怒！“损失超一亿”，官方通报袁曼雁 | 2023-05-03
一个《长月烬明》倒了，《狐妖》《长相思》《与凤行》…在路上了惠惠君 | 2023-05-02
当年轻人开始不随份子钱袁曼雁 | 2023-05-02
张天爱假期晒“酷”存照卷发披肩穿黑色吊带裙大秀好身材嬴覓晴 | 2023-05-02
毕滢用8年时间成功逼宫？曾被传已婚生子的她，不容小觑幸聽楓 | 2023-05-03
宋慧乔获视后首次晒照，拿奖杯笑容温柔郜萌運 | 2023-05-02