今天小编分享的科技经验:OpenAI:纽约媒体雇黑客攻击我,欢迎阅读。
堂堂 AI 巨头,怎么就被报纸给入侵了?
堂堂 AI 巨头,怎么就被一家报纸雇黑客攻击了?
美国媒体诉 OpenAI 侵犯版权索赔数十亿美元案最新进展:
在最新提交的法庭檔案中,OpenAI 声称美国媒体花钱找黑客攻击 ChatGPT,人为制造侵权结果。
使用欺骗性手段进行数万次尝试,才得到高度异常结果。
这项诉讼要是输了,那对 OpenAI 来说可能是毁灭性打击。
数十亿美元罚款都是小事了,按法律界的分析,连 ChatGPT 都可能被迫全部擦除,重头开始训练。
大家都知道,美国法律要遵循之前判例的原则。
在过去几十年的科技公司 vs 版权方的案子中,法院可并不总是站在科技公司一边。
这次 OpenAI 主张美国媒体雇佣黑客,还真的非常关键了。
纽约媒体如何攻击 ChatGPT
去年 12 月,美国媒体起诉 OpenAI 和他的微软爸爸,称 ChatGPT 和 Copilot 都未经许可利用其内容训练。
当时,美国媒体展示了足足100 个 GPT-4 一字不落背出真实报道段落的例子。
这样一来,ChatGPT 就可以算作报纸的竞争品。
OpenAI 这边,辩称这是一个漏洞,并承诺已经在修复。
具体来说,当 AI 生成与训练数据非常相似的样本时,可能发生" 数据回流 "(regurgitation of training data),类似于人类听到上句就会条件反射般的接下句,谁也拦不住。
他们认为美国媒体利用这一漏洞,使用特殊的提示词要求 ChatGPT 输出特定文章的开头,并继续要求输出下一句话。
OpenAI 预计需要反复尝试上万次才能生成这些整篇的文章,而且还不是按顺序的,而是 " 分散和无序的引用 "。
正常人不可能这么使用 ChatGPT,也不会把它当成美国媒体的替代品。
OpenAI 指责美国媒体故意误导法庭," 使用省略号来掩盖 "ChatGPT 吐出报道片段的顺序,造成了 "ChatGPT 生成了文章的连续和不间断片段的错误印象 "。
并且美国媒体从来没有披露过他们生成这些证据的具体提示词,以及是否修改了系统提示词等等细节,就挺心虚的。
至于提示词攻击算不算黑客行为,有网友表示怎么不算,如果认可提示词工程真的算一种工程,那提示词攻击就算攻击。
现在 OpenAI 主要从两个地方反击:
一是主张这种提示词攻击公然违反了 OpenAI 的产品使用条款。
二是主张互联网上公开内容是可以被合理使用的。
这就要抱紧谷歌大腿了,20 年前谷歌整了个大活,扫描数百万本图书放到搜索引擎上,被一堆出版商和作家协会给告了。
官司反反复复打了 10 多年,最终谷歌艰难的赢了,被判这些数据是合理使用。
当时裁决认为用户只能看到图书的简短片段,永远无法从受版权保护的书籍中恢复较长的段落。
谷歌制作书籍的数字副本以提供搜索功能是一种变革性的使用,它通过提供有关原告书籍的信息来增加公众知识,而不向公众提供书籍的实质性替代品。
不光 OpenAI,同样面临版权诉讼的 Stability AI 等 AI 影像生成公司,都在坚持他们做的事与谷歌当年一样:
都是" 学习训练数据中关于作品的信息,但不复制作品本身的创造性表达 "。
然鹅还有一个有争议的地方,AIGC 产品确实会产生创造性的作品,与接受训练的作品直接竞争。
所以这一批 AI 公司面临的危机,比谷歌当年面临危机还要大一些。
再不卖数据就晚了
实际上,像美国媒体这样和 AI 闹得不愉快的内容公司是少数。
更多互联网公司都在争先恐后出售自己的数据,反正这些 AI 公司又不是没钱。
Sora 视频,就被找出明显有 OpenAI 合作伙伴Shutterstock素材的影子。
上周," 美国贴吧 "Reddit刚刚跟谷歌签了協定,6 千万美元一年,让谷歌可以实时获取论坛数据用于 AI 训练。
OpenAI 这边肯定早就用上了,毕竟山姆奥特曼本人就和 Reddit 公司关系匪浅,而且早年比 GPT-1 还早的原型研究,就是在 Reddit 数据上训练聊天机器人。
现在Tumblr和WordPress也赶紧跟进,把用户数据出售给 OpenAI 和 Midjourney。
虽然他们的用户听到这个消息都挺不高兴的,但是没办法,当初注册账号的时候可是必须同意使用条款,其中把数据归属早就安排明白了。
当然 AI 公司买过来这些数据也不是直接塞 AI 嘴里就好使的,学术界现在也研究如何高效利用。
刚刚还有一篇语言模型训练的数据选择综述出炉,提出用于比较和对比不同的数据选择方法的框架,还倡议:
加速数据选择研究,如开发直接评估数据质量的指标,减少对昂贵模型训练的依赖。更好地理解数据分布的特性,以便更精确地选择数据。将计算时间从模型训练转移到数据处理。
随着 AI 生成的内容在互联网上铺开,后面再训练大模型的都绕不开使用 AI 生成的数据了,就说多少家大模型 " 承认 " 过自己是 OpenAI 训练的了吧。
同样中文数据也绕不开文心一言,谷歌 Gemini 都闹过笑话(已修复)。
坐拥大量人类古法手打数据的互联网公司,再不抓紧卖,AI 就能自给自足了。