今天小編分享的科技經驗:Google 悄悄更新:你發布的内容都将被用于 AI 訓練,歡迎閲讀。
世上沒有絕對的垃圾,只有放錯位置的資源。
在數字原住民的 Z 世代的口口相傳中,「互聯網時代 99% 的公開信息都是垃圾」的粗略定義早已見怪不怪了,而有趣的是,彼之砒霜,我之蜜糖,以 Google 為代表的 AI 巨頭卻開始盯上了這些互聯網上公開的信息。
近日,搜索引擎巨頭 Google 更新了其隐私政策,将使用互聯網上的公開信息訓練 AI 模型。隐私政策中寫到,Google 現可通過收集網絡上的公開信息或來自其他公共來源的信息,以幫助訓練 Google 的 AI 模型并打造實用功能,如 Google 翻譯、Bard 和 Google 雲 AI,此外,Google 将還原本的「語言模型」更改為「AI 模型」。
據媒體 OSCHINA 分析指出,這項政策更新表明, Google 現在正在向公眾及其用户明确表示,他們在網上公開發布的任何内容都可以用 Bard 和其未來版本,以及 Google 開發的任何其他生成人工智能產品。
生成式人工智能 AIGC 系統通常會根據互聯網上的海量通用數據進行預先訓練,從而大幅提升 AI 的泛化性、通用性、實用性,而這難免會陷入版權、隐私的糾紛。
對于這個困境,可能暫時沒有誰比 OpenAI 更理解了。
就在不久前,人工智能聊天機器人 ChatGPT 母公司 OpenAI 被兩名美國作家在舊金山聯邦法院提起訴訟,聲稱 OpenAI 沒有獲得版權授權,就濫用他們的作品來訓練人工智能。
被曝光的起訴書顯示,OpenAI 的訓練數據超過 30 萬本書,其中就包括本就飽受争議,版權歸屬不清晰的「影子圖書館」(大多是以侵犯版權的方式向公眾免費提供書籍文獻内容的線上網站)。
此外就在昨天,OpenAI 宣布,将暫時禁用 ChatGPT 的官方網頁浏覽模式,而這或許與 ChatGPT 被曝能夠翻閲付費牆,獲取隐藏的付費内容有關。繼美國作家版權訴訟事件之後,輿論之下,OpenAI 再次深陷版權風波。
因此,在 OpenAI 被訴訟的前車之鑑下,Google 未雨綢缪地更新隐私政策,提前給自己套上一個盾倒也合情合理。
雖然這一舉措有效降低了 Google 「吃官司」的風險,卻也将生成式人工智能使用海量網絡數據進行訓練的事實赤裸裸地擺在明面上,因此難免引發大眾對于隐私權的擔憂。外媒 Gizmodo 對此也評論認為,這是一種新的、有趣的隐私問題。
事實上,即使人們普遍理解網上公開發布的數據信息是開放自由的,對數據信息有可能被他人訪問是有一個心理預期的,但是如果網絡上海量數據信息被互聯網 AI 巨頭當做自家後花園,肆意使用以訓練人工智能,相信不少人會憑空產生被侵犯個人領網域的「别扭感」,從而對此持着一種較為謹慎的态度。
被這個問題困擾的不止普通用户,埃隆 · 馬斯克近日宣布 Twitter 将「臨時限制」用户每日閲讀推文數量:未驗證的賬户每天只能看到 600 條推文,對于新的未驗證賬户,一天只能看到 300 條。經過驗證的賬户每天只能閲讀 6000 條帖子。
馬斯克表示,這是因為有幾百個組織(包括一些 AI 公司)正在抓取 Twitter 數據,以至于影響了真實用户的體驗。
只不過,時代列車前行的轟隆聲,有時足以淹沒乘客充滿異議的嘈雜。
如果 Google 這一舉措合法合規,且得到 AI 巨頭們的紛紛效仿,或許有一天,我們都會從生成式人工智能中找到自己存在的痕迹。