X禁止第三方抓取數據，只因要親自下場做AI

今天小編分享的科技經驗：X禁止第三方抓取數據，只因要親自下場做AI，歡迎閱讀。

在馬斯克的指揮下，X 公司（前推特）近期又整出了新的花活。他們在日前悄然更新了服務條款，其中顯示未經其事先的書面許可，無論出于何種目的，哪怕是用于學術研究，任何第三方都不得在 X 上抓取數據來訓練 AI 大模型。這也就意味着，X 已經對 AI 大模型關閉了大門。

事實上，馬斯克幾乎從未掩飾對于第三方 AI 大模型的惡意。早在今年 3 月，彼時還叫 Twitter 的 X 方面就修改了 API 接口的訂閱價格，對于第三方訪問的價格進行了大幅上調。緊接着到了 4 月，馬斯克更是威脅要起訴微軟，原因是他認為後者非法使用了 Twitter 的數據來訓練 Bing Chat 的人工智能模型。當時間來到 7 月，馬斯克指揮 X 方面用法律武器對四家實體提起了訴訟，指控它們從事數據抓取活動，導致其伺服器資源嚴重緊張。

就在 7 月初，馬斯克還搞出了一個 " 神操作 "，宣布限制 X 用戶每日可浏覽的推文數量，其中已認證賬戶、未認證老賬戶、未認證新賬戶每日分别最多可浏覽 10000 條、1000 條、500 條推文。并且在未注冊的用戶想要查看一條推文時，平台還會提示他們登錄或是注冊賬戶。

其實這一連串操作背後的原因很簡單，因為如今數據幾乎成為了互聯網行業的 " 石油 "，也有着極高的價值。例如 ChatGPT 為什麼會表現得比 Siri 等上一代人工智能產品更聰明、更接近人類呢？單純就是因為 " 力大磚飛 "，而規模更大的語料庫則是其中的關鍵。例如 GPT-3 就擁有的 1750 億的參數量、45TB 的訓練數據，GPT-4 的參數規模更是達到了驚人的 1.8 萬億。也就是說，GPT-4 的數據規模是 GPT-3 的 10 倍以上。

那麼訓練 ChatGPT 的語料是哪裡來的呢？抓取包括 Twitter 在内、一切互聯網平台上用戶的互動内容，這就是 OpenAI 方面一直在幹的事情。所以某種意義上來說，ChatGPT 的軍功章裡除了有 OpenAI 的一半外，也有 Twitter 的一份。可現實是，OpenAI 在今年 4 月完成了一筆 103 億美元的新一輪融資，估值達到 270 億 -290 億美元，反觀 X 的估值在馬斯克眼中，已經從收購時的 440 億美元變成了 200 億美元。

此消彼長之下，馬斯克感到心裡不平衡簡直再正常不過。通過這一系列的措施，X 平台所蘊含的數據甚至還變得更有價值了，因為它更難以被獲取。更為重要的問題是，如今已沒有更多的高質量語料可供大模型進行訓練了。此前 AI 研究團隊 Epoch 在今年年初發表的論文中就表明，綜合目前人類語言數據的增長率，AI 不出 5 年就會把人類所有的高質量語料用光。

由于諸如論文、書籍、新聞、代碼等高質量的語料畢竟有限，有統計數據顯示，高質量語料數據的存量只剩下約 4.6 × 10^12 至 1.7 × 10^13 個單詞，相比當前最大的文本數據集大了不到一個數量級。而 X 等互聯網内容平台上的低質量語料卻可謂是取之不盡用之不竭，所以他們也已經是 AI 廠商為數不多的選擇了，就等于說現在已經是賣方市場。

雖然馬斯克此前的打算是将 X 上的這些數據賣個好價錢，畢竟一個新的營收來源對于風雨飄搖中的 X 來說算得上是久旱逢甘霖。事實上，限制第三方 AI 公司抓取數據對 X 的流量其實沒多少影響。比如同樣是因為對 AI 公司抓取數據收 " 保護費 "，Reddit 被用戶抵制，但最終用戶的抗議活動并未對該網站的流量造成重大影響。并且在 Meta 的 Threads 誕生前，X 在海外社交平台中也具有不可替代性。

既然如此，為什麼 X 突然修改了服務條款、拒絕第三方抓取數據呢，畢竟這意味着他們将無法通過這一行為向後者收費。原因當然是因為 AI 的魅力太大，以至于馬斯克要讓 X 親自下場來做 AI，而不是只只做 AI 大模型的數據供應商。就在不久前，X 公司突然修改了隐私政策，并新增了如下内容，" 我們可能會使用收集到的信息和公開可用的信息，來幫助訓練我們的機器學習或人工智能模型。"

此前在今年 7 月，馬斯克還成立了一家号稱利用 AI 了解宇宙真實本質的新公司 x.AI，并谷歌挖來了 Christian Szegedy、Jimmy Ba 等多位人工智能領網域的科學家。彼時馬斯克的說法，是 x.AI 的成立将與 OpenAI、谷歌等公司競争，試圖打造一個 " 好的通用人工智能（AGI）"，以防止某個公司壟斷 AI 領網域。

既然已經有了屬于自己的 AI 公司，X 上的數據顯然也就有了更有價值的去處，通過對數據的壟斷來為 x.AI 的 AI 大模型或 AGI 提供差異化的競争力，這并不難理解。所以不得不說馬斯克的鈔能力真的很好用，未來或許 OpenAI、微軟、谷歌等公司就要頭疼了。

【本文圖片來自網絡】