今天小編分享的科技經驗:X禁止第三方抓取數據,只因要親自下場做AI,歡迎閱讀。
在馬斯克的指揮下,X 公司(前推特)近期又整出了新的花活。他們在日前悄然更新了服務條款,其中顯示未經其事先的書面許可,無論出于何種目的,哪怕是用于學術研究,任何第三方都不得在 X 上抓取數據來訓練 AI 大模型。這也就意味着,X 已經對 AI 大模型關閉了大門。
事實上,馬斯克幾乎從未掩飾對于第三方 AI 大模型的惡意。早在今年 3 月,彼時還叫 Twitter 的 X 方面就修改了 API 接口的訂閱價格,對于第三方訪問的價格進行了大幅上調。緊接着到了 4 月,馬斯克更是威脅要起訴微軟,原因是他認為後者非法使用了 Twitter 的數據來訓練 Bing Chat 的人工智能模型。當時間來到 7 月,馬斯克指揮 X 方面用法律武器對四家實體提起了訴訟,指控它們從事數據抓取活動,導致其伺服器資源嚴重緊張。
就在 7 月初,馬斯克還搞出了一個 " 神操作 ",宣布限制 X 用戶每日可浏覽的推文數量,其中已認證賬戶、未認證老賬戶、未認證新賬戶每日分别最多可浏覽 10000 條、1000 條、500 條推文。并且在未注冊的用戶想要查看一條推文時,平台還會提示他們登錄或是注冊賬戶。
其實這一連串操作背後的原因很簡單,因為如今數據幾乎成為了互聯網行業的 " 石油 ",也有着極高的價值。例如 ChatGPT 為什麼會表現得比 Siri 等上一代人工智能產品更聰明、更接近人類呢?單純就是因為 " 力大磚飛 ",而規模更大的語料庫則是其中的關鍵。例如 GPT-3 就擁有的 1750 億的參數量、45TB 的訓練數據,GPT-4 的參數規模更是達到了驚人的 1.8 萬億。也就是說,GPT-4 的數據規模是 GPT-3 的 10 倍以上。
那麼訓練 ChatGPT 的語料是哪裡來的呢?抓取包括 Twitter 在内、一切互聯網平台上用戶的互動内容,這就是 OpenAI 方面一直在幹的事情。所以某種意義上來說,ChatGPT 的軍功章裡除了有 OpenAI 的一半外,也有 Twitter 的一份。可現實是,OpenAI 在今年 4 月完成了一筆 103 億美元的新一輪融資,估值達到 270 億 -290 億美元,反觀 X 的估值在馬斯克眼中,已經從收購時的 440 億美元變成了 200 億美元。
此消彼長之下,馬斯克感到心裡不平衡簡直再正常不過。通過這一系列的措施,X 平台所蘊含的數據甚至還變得更有價值了,因為它更難以被獲取。更為重要的問題是,如今已沒有更多的高質量語料可供大模型進行訓練了。此前 AI 研究團隊 Epoch 在今年年初發表的論文中就表明,綜合目前人類語言數據的增長率,AI 不出 5 年就會把人類所有的高質量語料用光。
由于諸如論文、書籍、新聞、代碼等高質量的語料畢竟有限,有統計數據顯示,高質量語料數據的存量只剩下約 4.6 × 10^12 至 1.7 × 10^13 個單詞,相比當前最大的文本數據集大了不到一個數量級。而 X 等互聯網内容平台上的低質量語料卻可謂是取之不盡用之不竭,所以他們也已經是 AI 廠商為數不多的選擇了,就等于說現在已經是賣方市場。
雖然馬斯克此前的打算是将 X 上的這些數據賣個好價錢,畢竟一個新的營收來源對于風雨飄搖中的 X 來說算得上是久旱逢甘霖。事實上,限制第三方 AI 公司抓取數據對 X 的流量其實沒多少影響。比如同樣是因為對 AI 公司抓取數據收 " 保護費 ",Reddit 被用戶抵制,但最終用戶的抗議活動并未對該網站的流量造成重大影響。并且在 Meta 的 Threads 誕生前,X 在海外社交平台中也具有不可替代性。
既然如此,為什麼 X 突然修改了服務條款、拒絕第三方抓取數據呢,畢竟這意味着他們将無法通過這一行為向後者收費。原因當然是因為 AI 的魅力太大,以至于馬斯克要讓 X 親自下場來做 AI,而不是只只做 AI 大模型的數據供應商。就在不久前,X 公司突然修改了隐私政策,并新增了如下内容," 我們可能會使用收集到的信息和公開可用的信息,來幫助訓練我們的機器學習或人工智能模型。"
此前在今年 7 月,馬斯克還成立了一家号稱利用 AI 了解宇宙真實本質的新公司 x.AI,并谷歌挖來了 Christian Szegedy、Jimmy Ba 等多位人工智能領網域的科學家。彼時馬斯克的說法,是 x.AI 的成立将與 OpenAI、谷歌等公司競争,試圖打造一個 " 好的通用人工智能(AGI)",以防止某個公司壟斷 AI 領網域。
既然已經有了屬于自己的 AI 公司,X 上的數據顯然也就有了更有價值的去處,通過對數據的壟斷來為 x.AI 的 AI 大模型或 AGI 提供差異化的競争力,這并不難理解。所以不得不說馬斯克的鈔能力真的很好用,未來或許 OpenAI、微軟、谷歌等公司就要頭疼了。
【本文圖片來自網絡】