OpenAI：紐約媒體雇黑客攻擊我

今天小編分享的科技經驗：OpenAI：紐約媒體雇黑客攻擊我，歡迎閱讀。

堂堂 AI 巨頭，怎麼就被報紙給入侵了？

堂堂 AI 巨頭，怎麼就被一家報紙雇黑客攻擊了？

美國媒體訴 OpenAI 侵犯版權索賠數十億美元案最新進展：

在最新提交的法庭檔案中，OpenAI 聲稱美國媒體花錢找黑客攻擊 ChatGPT，人為制造侵權結果。

使用欺騙性手段進行數萬次嘗試，才得到高度異常結果。

這項訴訟要是輸了，那對 OpenAI 來說可能是毀滅性打擊。

數十億美元罰款都是小事了，按法律界的分析，連 ChatGPT 都可能被迫全部擦除，重頭開始訓練。

大家都知道，美國法律要遵循之前判例的原則。

在過去幾十年的科技公司 vs 版權方的案子中，法院可并不總是站在科技公司一邊。

這次 OpenAI 主張美國媒體雇傭黑客，還真的非常關鍵了。

紐約媒體如何攻擊 ChatGPT

去年 12 月，美國媒體起訴 OpenAI 和他的微軟爸爸，稱 ChatGPT 和 Copilot 都未經許可利用其内容訓練。

當時，美國媒體展示了足足100 個 GPT-4 一字不落背出真實報道段落的例子。

這樣一來，ChatGPT 就可以算作報紙的競争品。

OpenAI 這邊，辯稱這是一個漏洞，并承諾已經在修復。

具體來說，當 AI 生成與訓練數據非常相似的樣本時，可能發生" 數據回流 "（regurgitation of training data），類似于人類聽到上句就會條件反射般的接下句，誰也攔不住。

他們認為美國媒體利用這一漏洞，使用特殊的提示詞要求 ChatGPT 輸出特定文章的開頭，并繼續要求輸出下一句話。

OpenAI 預計需要反復嘗試上萬次才能生成這些整篇的文章，而且還不是按順序的，而是 " 分散和無序的引用 "。

正常人不可能這麼使用 ChatGPT，也不會把它當成美國媒體的替代品。

OpenAI 指責美國媒體故意誤導法庭，" 使用省略号來掩蓋 "ChatGPT 吐出報道片段的順序，造成了 "ChatGPT 生成了文章的連續和不間斷片段的錯誤印象 "。

并且美國媒體從來沒有披露過他們生成這些證據的具體提示詞，以及是否修改了系統提示詞等等細節，就挺心虛的。

至于提示詞攻擊算不算黑客行為，有網友表示怎麼不算，如果認可提示詞工程真的算一種工程，那提示詞攻擊就算攻擊。

現在 OpenAI 主要從兩個地方反擊：

一是主張這種提示詞攻擊公然違反了 OpenAI 的產品使用條款。

二是主張互聯網上公開内容是可以被合理使用的。

這就要抱緊谷歌大腿了，20 年前谷歌整了個大活，掃描數百萬本圖書放到搜索引擎上，被一堆出版商和作家協會給告了。

官司反反復復打了 10 多年，最終谷歌艱難的赢了，被判這些數據是合理使用。

當時裁決認為用戶只能看到圖書的簡短片段，永遠無法從受版權保護的書籍中恢復較長的段落。

谷歌制作書籍的數字副本以提供搜索功能是一種變革性的使用，它通過提供有關原告書籍的信息來增加公眾知識，而不向公眾提供書籍的實質性替代品。

不光 OpenAI，同樣面臨版權訴訟的 Stability AI 等 AI 影像生成公司，都在堅持他們做的事與谷歌當年一樣：

都是" 學習訓練數據中關于作品的信息，但不復制作品本身的創造性表達 "。

然鵝還有一個有争議的地方，AIGC 產品确實會產生創造性的作品，與接受訓練的作品直接競争。

所以這一批 AI 公司面臨的危機，比谷歌當年面臨危機還要大一些。

再不賣數據就晚了

實際上，像美國媒體這樣和 AI 鬧得不愉快的内容公司是少數。

更多互聯網公司都在争先恐後出售自己的數據，反正這些 AI 公司又不是沒錢。

Sora 視頻，就被找出明顯有 OpenAI 合作夥伴Shutterstock素材的影子。

上周，" 美國貼吧 "Reddit剛剛跟谷歌籤了協定，6 千萬美元一年，讓谷歌可以實時獲取論壇數據用于 AI 訓練。

OpenAI 這邊肯定早就用上了，畢竟山姆奧特曼本人就和 Reddit 公司關系匪淺，而且早年比 GPT-1 還早的原型研究，就是在 Reddit 數據上訓練聊天機器人。

現在Tumblr和WordPress也趕緊跟進，把用戶數據出售給 OpenAI 和 Midjourney。

雖然他們的用戶聽到這個消息都挺不高興的，但是沒辦法，當初注冊賬号的時候可是必須同意使用條款，其中把數據歸屬早就安排明白了。

當然 AI 公司買過來這些數據也不是直接塞 AI 嘴裡就好使的，學術界現在也研究如何高效利用。

剛剛還有一篇語言模型訓練的數據選擇綜述出爐，提出用于比較和對比不同的數據選擇方法的框架，還倡議：

加速數據選擇研究，如開發直接評估數據質量的指标，減少對昂貴模型訓練的依賴。更好地理解數據分布的特性，以便更精确地選擇數據。将計算時間從模型訓練轉移到數據處理。

随着 AI 生成的内容在互聯網上鋪開，後面再訓練大模型的都繞不開使用 AI 生成的數據了，就說多少家大模型 " 承認 " 過自己是 OpenAI 訓練的了吧。

同樣中文數據也繞不開文心一言，谷歌 Gemini 都鬧過笑話（已修復）。

坐擁大量人類古法手打數據的互聯網公司，再不抓緊賣，AI 就能自給自足了。