“盜竊”而來的 3000 億單詞？ChatGPT 攤上事了，遭索賠 30 億美元！

今天小編分享的科技經驗：“盜竊”而來的 3000 億單詞？ChatGPT 攤上事了，遭索賠 30 億美元！，歡迎閱讀。

整理 | 鄭麗媛

出品 | CSDN（ID：CSDNnews）

2016 年 10 月 19 日，英國劍橋大學理論物理學教授 Stephen Hawking 曾預言：" 強大 AI 的崛起，可能将是人類遇到的最好的事情，也可能是最壞的事情。"

此後 7 年還不到，Stephen Hawking 教授的預言似乎就 " 成真 " 了：在近半年的 ChatGPT 熱潮下，很多人看見了它的強悍和優勢，但同時也有越來越多人開始擔心 AI 時代下的隐私保護——于是，近來憑借 ChatGPT 和 GPT-4 風頭正盛的 OpenAI 和微軟，突然就被告了。

上周，16 位匿名人士決定起訴微軟和 OpenAI，稱這兩家公司基于 ChatGPT 的 AI 產品在未獲得同意或提供充分通知的情況下，收集并洩露了他們的個人信息，要求索賠 30 億美元。

" 盜竊 " 而來的 3000 億單詞？

根據這 16 人提交給加利福尼亞州舊金山聯邦法院、長達 157 頁的訴訟書顯示，OpenAI 和微軟被指控違反了《電子通訊隐私法》，即無視獲取 AI 模型數據的合法途徑，選擇在不付費的情況下收集數據。

" 盡管存在購買和使用個人信息的既定程式，但被告（OpenAI 和微軟）還是采取了不同的方式：盜竊。"

在最初 ChatGPT 剛爆火的時候，OpenAI 就曾介紹過 ChatGPT 的強大功能，來自大規模預訓練——它有 3000 億單詞的語料庫預訓練。但原告稱，OpenAI 從互聯網上的書籍、文章和發帖中所獲取的 3000 億字内容，遠遠超過其合理授權的範圍。

具體來說，這 16 人指控 OpenAI 和微軟通過其 AI 產品 " 收集、存儲、跟蹤、共享和披露 " 數百萬人的個人信息，并且獲得的信息範圍很廣，包括產品細節、賬戶信息、姓名、聯系方式、登錄憑證、電子郵件、支付信息、交易記錄、浏覽器數據、社交媒體信息、聊天日志、Cookie、搜索記錄和其他在線活動等等。

原告堅稱，在 " 從全球數百萬毫無戒心的消費者那裡非法收集個人資料 " 後，微軟和 OpenAI 将其嵌入至他們的 AI 模型中，這才創造出了現在的 ChatGPT 等 AI 產品：

▶ "OpenAI 大規模使用竊取并盜用個人信息，以此創造了強大且利潤豐厚的 AI 產品，并不顧風險地将其對外發布。"

▶ "OpenAl 的技術價值已高達到數百億美元，而且其進入每一個公共和私營行業的範圍還在繼續迅速擴大。由于對被盜、盜用數據的培訓，這些產品才達到了如今的復雜程度。"

除了指控 OpenAI " 盜竊 " 數百萬互聯網用戶的個人隐私，訴訟書中還強調了 OpenAI 和微軟之間的密切合作關系：" 微軟對 OpenAl 持續投資，并在其多個平台上都引入了 ChatGPT，強調其與 OpenAl 合作的深度。通過這些投資，微軟還獲得了獨家使用整個 OpenAI 代碼庫的權利。"

很少提到 AI 的具體傷害案例

整整 157 頁訴訟書中，引用了大量媒體報道和學術論文，反復強調了原告對 AI 模型發展下道德規範的擔憂。不過據了解，其中并沒有提到多少 AI 對人類的具體傷害案例。

例如，在提到 2019 年 OpenAI 重組為一家 " 有限營利企業 " 時，訴訟書表示 "OpenAI 放棄了最初的目标和原則，選擇以犧牲隐私安全和道德為代價來追求利潤 "，并由此推斷 OpenAI 加大了從互聯網上 " 秘密獲取 " 大量個人數據的力度，而不通知這些數據的所有者或用戶。

此外，在指控 OpenAI 無視隐私法的同時，檔案引用了 OpenAI 首席執行官 Sam Altman 的一句發言："AI 很可能會導致世界末日，但與此同時，也會出現偉大的公司。" 而基于這句話，訴訟書表示：" 被告對隐私法的漠視，與他們對人類潛在災難性風險的漠視不相上下。"

總體而言，在這份 157 頁的訴訟書中，微軟和 OpenAI 被指控違反了《電子隐私通信法》，即在沒有獲得授權的情況下使用私人信息以求牟利。同時，因為插件攔截互動數據，微軟和 OpenAI 也違反了《計算機欺詐和濫用法》。

基于以上，考慮到被 " 盜取 " 數據的群體應該有數百萬人，原告向微軟和 OpenAI 提出了 30 億美元的索賠。

微軟和 OpenAI 并未回應

截至目前，微軟和 OpenAI 都沒有對這份指控作出回應，而網友對于這起訴訟的讨論早已泛濫。

部分人對于 OpenAI 如何 " 竊取 " 并利用個人數據的方式感到好奇，外媒 Firstpost 解釋道：" 如果你在最近幾十年裡一直在網上活躍，你的數據就很可能被納入 OpenAI 的數據集。因此，OpenAI 語言模型產生的任何輸出，如果用于盈利，其中就可能包含通過無聲搜刮而獲得的你的數據片段。"

對此，起訴 OpenAI 的律師事務所方面也進行了補充：用戶的個人數據 " 最初并不是打算給大型語言模型使用的 "，所有信息都是 OpenAI 自己去大規模獲取的。

至于這場訴訟的最終結果，目前來看應該并不确定。互聯網的基礎設施很復雜，在線平台與用戶有自己的條款和協定，即使用戶向這些平台貢獻内容，數據所有權也通常屬于平台本身而非用戶。

對于這個說法，知識產權律師 Katherine Gardner 也是認同的：當用戶将内容上傳到社交媒體或任何其他網站時，他們通常會授予平台以各種方式使用其内容，因此普通用戶可能很難要求因在訓練模型中使用其數據而獲得相應的補償。

除此之外，也有不少網友打趣起了這 30 億美元的索賠金額：

▶ "30 億不夠，怎麼也得 80 億美元，這樣我們每個人都能拿到 1 美元！"

▶ " 不行，我在網上寫了 3 篇東西呢，得給我 3 美元才行！"

參考鏈接：

https://storage.courtlistener.com/recap/gov.uscourts.cand.414754/gov.uscourts.cand.414754.1.0.pdf

https://www.firstpost.com/world/chatgpt-openai-sued-for-stealing-everything-anyones-ever-written-on-the-internet-12809472.html