今天小編分享的科技經驗:OpenAI:紐約媒體雇黑客攻擊我,歡迎閱讀。
堂堂 AI 巨頭,怎麼就被報紙給入侵了?
堂堂 AI 巨頭,怎麼就被一家報紙雇黑客攻擊了?
美國媒體訴 OpenAI 侵犯版權索賠數十億美元案最新進展:
在最新提交的法庭檔案中,OpenAI 聲稱美國媒體花錢找黑客攻擊 ChatGPT,人為制造侵權結果。
使用欺騙性手段進行數萬次嘗試,才得到高度異常結果。
這項訴訟要是輸了,那對 OpenAI 來說可能是毀滅性打擊。
數十億美元罰款都是小事了,按法律界的分析,連 ChatGPT 都可能被迫全部擦除,重頭開始訓練。
大家都知道,美國法律要遵循之前判例的原則。
在過去幾十年的科技公司 vs 版權方的案子中,法院可并不總是站在科技公司一邊。
這次 OpenAI 主張美國媒體雇傭黑客,還真的非常關鍵了。
紐約媒體如何攻擊 ChatGPT
去年 12 月,美國媒體起訴 OpenAI 和他的微軟爸爸,稱 ChatGPT 和 Copilot 都未經許可利用其内容訓練。
當時,美國媒體展示了足足100 個 GPT-4 一字不落背出真實報道段落的例子。
這樣一來,ChatGPT 就可以算作報紙的競争品。
OpenAI 這邊,辯稱這是一個漏洞,并承諾已經在修復。
具體來說,當 AI 生成與訓練數據非常相似的樣本時,可能發生" 數據回流 "(regurgitation of training data),類似于人類聽到上句就會條件反射般的接下句,誰也攔不住。
他們認為美國媒體利用這一漏洞,使用特殊的提示詞要求 ChatGPT 輸出特定文章的開頭,并繼續要求輸出下一句話。
OpenAI 預計需要反復嘗試上萬次才能生成這些整篇的文章,而且還不是按順序的,而是 " 分散和無序的引用 "。
正常人不可能這麼使用 ChatGPT,也不會把它當成美國媒體的替代品。
OpenAI 指責美國媒體故意誤導法庭," 使用省略号來掩蓋 "ChatGPT 吐出報道片段的順序,造成了 "ChatGPT 生成了文章的連續和不間斷片段的錯誤印象 "。
并且美國媒體從來沒有披露過他們生成這些證據的具體提示詞,以及是否修改了系統提示詞等等細節,就挺心虛的。
至于提示詞攻擊算不算黑客行為,有網友表示怎麼不算,如果認可提示詞工程真的算一種工程,那提示詞攻擊就算攻擊。
現在 OpenAI 主要從兩個地方反擊:
一是主張這種提示詞攻擊公然違反了 OpenAI 的產品使用條款。
二是主張互聯網上公開内容是可以被合理使用的。
這就要抱緊谷歌大腿了,20 年前谷歌整了個大活,掃描數百萬本圖書放到搜索引擎上,被一堆出版商和作家協會給告了。
官司反反復復打了 10 多年,最終谷歌艱難的赢了,被判這些數據是合理使用。
當時裁決認為用戶只能看到圖書的簡短片段,永遠無法從受版權保護的書籍中恢復較長的段落。
谷歌制作書籍的數字副本以提供搜索功能是一種變革性的使用,它通過提供有關原告書籍的信息來增加公眾知識,而不向公眾提供書籍的實質性替代品。
不光 OpenAI,同樣面臨版權訴訟的 Stability AI 等 AI 影像生成公司,都在堅持他們做的事與谷歌當年一樣:
都是" 學習訓練數據中關于作品的信息,但不復制作品本身的創造性表達 "。
然鵝還有一個有争議的地方,AIGC 產品确實會產生創造性的作品,與接受訓練的作品直接競争。
所以這一批 AI 公司面臨的危機,比谷歌當年面臨危機還要大一些。
再不賣數據就晚了
實際上,像美國媒體這樣和 AI 鬧得不愉快的内容公司是少數。
更多互聯網公司都在争先恐後出售自己的數據,反正這些 AI 公司又不是沒錢。
Sora 視頻,就被找出明顯有 OpenAI 合作夥伴Shutterstock素材的影子。
上周," 美國貼吧 "Reddit剛剛跟谷歌籤了協定,6 千萬美元一年,讓谷歌可以實時獲取論壇數據用于 AI 訓練。
OpenAI 這邊肯定早就用上了,畢竟山姆奧特曼本人就和 Reddit 公司關系匪淺,而且早年比 GPT-1 還早的原型研究,就是在 Reddit 數據上訓練聊天機器人。
現在Tumblr和WordPress也趕緊跟進,把用戶數據出售給 OpenAI 和 Midjourney。
雖然他們的用戶聽到這個消息都挺不高興的,但是沒辦法,當初注冊賬号的時候可是必須同意使用條款,其中把數據歸屬早就安排明白了。
當然 AI 公司買過來這些數據也不是直接塞 AI 嘴裡就好使的,學術界現在也研究如何高效利用。
剛剛還有一篇語言模型訓練的數據選擇綜述出爐,提出用于比較和對比不同的數據選擇方法的框架,還倡議:
加速數據選擇研究,如開發直接評估數據質量的指标,減少對昂貴模型訓練的依賴。更好地理解數據分布的特性,以便更精确地選擇數據。将計算時間從模型訓練轉移到數據處理。
随着 AI 生成的内容在互聯網上鋪開,後面再訓練大模型的都繞不開使用 AI 生成的數據了,就說多少家大模型 " 承認 " 過自己是 OpenAI 訓練的了吧。
同樣中文數據也繞不開文心一言,谷歌 Gemini 都鬧過笑話(已修復)。
坐擁大量人類古法手打數據的互聯網公司,再不抓緊賣,AI 就能自給自足了。