再讓AI大廠這麼“偷”下去，咱可能就看不到免費的網站了。。。 - 大酷樂

今天小編分享的科技經驗：再讓AI大廠這麼“偷”下去，咱可能就看不到免費的網站了。。。，歡迎閲讀。

幾天前，谷歌突然更新了隐私政策，明确表示要用網上所有的公開數據，來訓練自家的 AI 模型。

也就是説，根據新政策，你在網上公開發布的任何信息都有可能被谷歌抓取，包括但不限于你發的帖子、搜索的關鍵詞以及看過的視頻。

這不妥妥互聯網裸奔嗎！

OpenAI 前腳剛被起訴數據侵權還沒多久，谷歌就馬上着急來撞槍口。

在這個節骨眼上整這麼一出，大概率跟數據收費脱不了關系，谷歌再不薅這波免費的羊毛，之後很有可能就薅不到咯。

這事兒啊，自打 ChatGPT 爆火後再也沒消停過。

世超先給大家夥兒捋捋時間線。

今年 3 月的時候呢，馬斯克帶頭打響了數據收費第一槍，宣稱推特的 API 接口不再免費了。

緊接着，美版貼吧 Reddit 也按耐不住了。

上個月 Reddit 鬧得沸沸揚揚的 " 停電 " 運動，就是為了抗議官方的 API 收費政策。

之前世超寫這事兒的時候還在猜測， Reddit 官方最後會不會作出讓步。

從現在的後續看來，大多第三方軟體已經确認關停， Reddit 是鐵了心要數據收費。

再到這段時間，推特又整了限流的幺蛾子，沒有花錢認證的帳号每天就只能閲讀 600 條貼文，目的呢也是為了防止機器人抓取用户數據。

難道數據就這麼值錢嗎？

世超覺着啊，還是AI 的鍋。

AI 大模型要想變得更聰明，就需要源源不斷的數據去 " 喂養 " 。

現在能做大模型的，要不就是自己家有數據，像百度、阿裏和騰訊；要不就是爬人家的數據，這裏點名 OpenAI 。

因為很多網站都開放有免費的 API 接口，才給了微軟、 OpenAI 這些巨頭可乘之機。

但今時不同往日， AI 在重新賦予數據價值以後，有籌碼在手上的平台當然不樂意被白嫖了。

甚至于 Reddit 的 CEO 霍夫曼都把話搬上明面兒了：就是不想免費提供數據給巨頭們。

所以， OpenAI 被起訴估計也是平台們聯合起來想要 " 殺雞儆猴 "，治一治 AI 的這股歪風邪氣。

不過，法律這次會不會站在 OpenAI 這邊，還真不好説。

因為數據版權涉及到 3 個關鍵的問題：

1. 數據爬蟲的行為本身是否是合法的？

2. 數據是否受到版權的保護？

3. 用數據生成的作品是否受到版權保護？

首先第一個問題，要獲取數據，無非就是付費購買，或者收集網上公開的數據。

但需要注意的是，公開的數據并不能等同于授權使用，而且還要看網站是不是有相關的條款對數據爬蟲行為做出了限制。

要是直接越過版權方的同意，或者繞過了網站限制強行獲取數據，那就是妥妥的非法獲取計算機信息系統數據罪。

即使 OpenAI 聲稱爬的是公開網站的數據，數據爬蟲行為本身是否合法，還要看版權方是不是給了授權。

其次，關于數據本身是否受到版權保護。

根據美國的版權法，如果 AI 模型訓練所用的數據符合 " 合理使用 " 的範圍，那就不會構成侵權。

但問題就出在這 " 合理使用 " 上。

" 合理使用 " 的構成要件包括是否涉及商用、作品本身是否受版權法保護、所使用部分的數量以及使用之後對作品本身造成的影響這四個标準。

像什麼新聞報道、學術研究，适當引用是完全 ok 的。

可 AI 模型上億萬級别的數據使用量、已經商業化的 AI 軟體，還能算作 " 合理使用 " 嗎？

因為訓練數據版權理不清， AI 生成的内容自然也會存在版權争議。前幾天， Steam 還下架了一款使用了 AIGC 生成的遊戲，理由就是版權有問題。

咱就拿 AI 繪畫舉例子，影像生成相當于一個拆分又重組的過程，雖然最後的結果是完全 " 新 " 的，但仍然會保留訓練影像的某些特征。

但這種情況到底算不算侵權，各國的説法現在也是眾説紛纭。

因為訓練數據是人家的，美國版權局認定 AI 生成的作品不受版權法保護，甚至還可能侵犯著作權。

而日本政府的态度則截然不同，表示日本法律不保護 AI 訓練所用數據的版權。

至少在現行的法律框架下，上面這些問題很難得到一個統一的答案。

既然監管不給力，那版權方就只有提刀自己幹了，該收費的收費，該追償的也趕緊追償。

▼ OpenAI 被起訴的檔案

可以預見，在推特和 Reddit 之後，可能還會有更多的内容版權方豎起高牆。

這事兒呢，對于平台來説，當然是個掙錢的新路子，科技巨頭再不濟也就是多砸點兒錢。

但對于整個互聯網來説，可算不上一件好事兒。

當年，互聯網就是帶着開放共享的基因出生的，像什麼維基百科、推特，之前常年免費提供 API 接口，開發者調用數據很方便。

但現在如果讓數據收費這麼一搞，結果會怎麼樣還真不好説。

畢竟，小開發者沒有支付巨額數據費的能力，如果創新只在巨頭裏發生，這不就是純純搞壟斷了？

最主要的是，可能很多現在免費能看到的網站之後就要花錢才能看了，這才是對咱們這種普通用户的真實暴擊。

其實吧，數據收費這事兒也不能全怪平台，實在是讓 AI 巨頭給 " 搶 " 怕了，算是一種自保的無奈之舉。

雖然這次谷歌有 " 隐私政策 " 護體，但結果如何還真不好説。

所以，關鍵還要是看監管的大錘什麼時候能落下。

厘清數據版權，是 AI 要發展始終繞不過去的一道坎兒，而現在，似乎也同樣關乎着互聯網的未來走向。

不知道 AI 這艘船，會将我們推向一個更開放，還是更封閉的時代？