今天小編分享的科技經驗:谷歌AI正在吞食一切!爬取所有公開内容用于訓練AI,隐私政策已更新,歡迎閱讀。
從今往後,你在網上公開說的每一句話,都可能被谷歌拿去訓練 AI!
沒錯,繼畫畫之後,文字作品也要被用來喂大模型了——
無論是技術博客、代碼、論文,還是所有你在網上公開的帖子,都可能被扔進 " 谷歌大模型攪拌機 ",即使有版權也是如此。
就在這周,谷歌更新了一版隐私政策,明确表示他們保留有抓取網上所有公開内容,以構建其 AI 工具的權利。
網友們立刻炸了。有人警告 " 谷歌正抓取一切 ":
一旦谷歌能夠讀取你寫的東西,就意味着這些都是他們的 " 所有物 " 了。
還有網友抱持更悲觀的想法:
很快啊,所有内容產出者就都會是 AI 了。
所以,這版隐私政策究竟是怎麼回事?
用于訓練 Bard 等 AI 產品
事情還得從谷歌這幾天更新的隐私政策說起。
在最新的隐私權政策中,谷歌增加了一個關于 " 研究和開發 " 的 AI 模型條款:
Google 會利用信息來改進我們的服務并開發新的產品、功能和技術,以惠及我們的用戶和公眾。
例如,我們會利用公開信息來幫助訓練 Google 的 AI 模型并打造實用產品和功能(比如 Google 翻譯、Bard 和 Cloud AI 功能)。
換言之,就是将所有可能收集到的公開信息,用在谷歌翻譯、Bard和Cloud AI等 AI 相關產品或功能的訓練中。
那麼,這些公開信息具體包括什麼?
例如互聯網、網絡和其他活動信息,包括搜索字詞、應用和浏覽器與谷歌服務進行互動的相關信息,以及在第三方網站和應用中使用谷歌服務等。
換而言之,不止是此前已經公開的博客等内容,包括公開到網上的谷歌文檔、或是一些包含個人信息的發帖,也可能會被谷歌收集起來,用于大模型訓練。
當然,目前這些内容都還限定在 " 公開信息 "。
像谷歌提供的 Gmail 等電子郵件服務,應該還是不會被爬進數據裡的。
而且谷歌也明确在隐私權政策中表示,在其他如防範安全威脅、信息審核、服務維護、個性化廣告或法律等原因情況下,同樣可以使用這些個人或公開信息。
不過,谷歌為啥在這個節骨眼更新這個政策?
"AI 正挑戰文字版權 "
或許也與 Reddit 和推特等一眾公司搞出的 " 限流 " 操作有關。
先是今年 4 月,Reddit 宣布對接入 API 的公司開始收費。
公司 CEO 認為,Reddit 的數據庫很有價值,但是他們不想将這些有價值的内容免費提供給科技大公司。
随後,推特也開始以 "不想讓 AI 公司白嫖數據" 的理由,來給推特限流,未經驗證用戶日浏覽量只有 600,經過驗證後增加到 6000。
這一系列政策對用戶和第三方工具影響很嚴重,例如 Reddit 引發了大規模的讨論版塊抗議,不少版主直接關閉了自己管理的論壇,以對 Reddit 這一活動進行抗議,推特上也有不少人在聲讨,甚至有網友表示 " 推特被殺死了 "。
但無論如何,讓 AI 白嫖數據這件事,現在都已經是一個無法忽視的矛盾了。
對于谷歌 AI 爬數據這件事,有網友表示疑惑:
為啥之前互聯網如搜索引擎也有爬取數據一類的操作,但人們卻偏偏對 "AI 抓取 " 感到抗拒。
有網友回應稱:
本質上還是版權的問題。如果只是引用受版權保護的材料,那麼不一定侵犯版權,但如果用 AI 對有版權的内容進行 " 攪拌清洗 ",而且這事兒合法化了,那麼本質上版權已死。
也正是因此,他對于這件事感到悲觀:
如果有人在不标注來源的情況下復制了你的博客,或是将你的開源代碼拿去做付費服務,又或是将你在 StackOverflow 上的答案用作答題方法,你能接受這些情況發生嗎?
我之前做的一切都是免費的。但現在如果 AI 想讓我消失,那我就會消失。
當然,也有網友已經接受了這個政策的推出,警惕大家自身防範意識不可或缺:
細讀新政策,注意我們洩露了多少信息到網上。
那麼,你怎麼看待這件事?
參考鏈接:
[ 1 ] https://gizmodo.com/google-says-itll-scrape-everything-you-post-online-for-1850601486
[ 2 ] https://news.ycombinator.com/item?id=36577626