今天小編分享的科技經驗:被AI爬蟲擠爆伺服器的維基百科:投降了,歡迎閱讀。
說到維基百科,大家都不陌生。
可以說,維基百科是普通人弄懂一個概念,最便捷也最權威的方式之一。
維基百科的運營機構,是一個叫維基媒體的非盈利組織。組織旗下除了有維基百科,還有維基共享資源,維基詞典,維基教科書等項目。
這些項目都是免費給大家用的,因為維基媒體的核心價值觀就是讓知識能自由獲取和共享 。
但最近,維基媒體真的被 AI 公司們鬧麻了。
這些公司為了訓練大模型,派了無數個 AI 爬蟲源源不斷爬取維基媒體上面的數據。
但說起來你可能不信:維基媒體居然沒告這些 AI 公司,而是選擇了——
主動上交。
" 各位大哥,我把資料都整理好了,你們别爬了行不。"
前段時間,維基媒體把英語、法語的維基百科内容托管在社區平台 Kaggle,告訴那些 AI 公司,要資源自取。
光給資源還不行,維基還要服務好這些大哥,專門把資料針對 AI 模型的口味優化了一遍。
因為機器和人類不一樣,我們看起來清晰直觀的頁面,他們還需要多動點腦子,來判斷每一部分是啥。
所以維基就把頁面做成了 JSON 格式的結構化内容,那些标題、摘要、解釋都按照統一格式分好。
這樣 AI 在查看時更容易讀懂每一段的内容和數據,從而降低了 AI 公司的成本。
這一波啊,這一波屬于是為了保護老巢不被衝垮,維基給狼群做了一盤美味的肉,扔在了别的地方。
世超覺得,維基這麼做真挺無奈的。
早在 4 月 1 号時,他們已經發過博客吐槽了:從 2024 年以來,平台用來下載多媒體内容的流量增加了 50%。
本以為是大家更愛學習了,結果一查發現全 TM 是 AI 公司的爬蟲。爬蟲們源源不斷地把資源爬回去,然後拿去訓練大模型。
爬蟲對維基的影響,還真挺大的。
因為維基媒體在全球有多個區網域數據中心(歐洲、亞洲、南美等)和一個核心數據中心(美國弗吉尼亞州阿什本)。
核心數據中心存着所有的資料,而區網域數據中心會臨時緩存一些熱門詞條。
這麼做好處是啥呢?
比如最近很多亞洲人在查 " Speed " 這個詞,那 " Speed " 就會被緩存到亞洲的區網域數據中心。
這樣後來的亞洲網友查看 " Speed " 時,這些數據就會走同城快遞,從亞洲數據中心出發,不用再從美國的數據中心走國際物流了。
這高頻詞條走廉價通道,低頻詞條走高價通道的辦法,不光提高了各個區網域用戶的加載速度,也降低了維基媒體的伺服器壓力。
但問題是: AI 管你這的那的?只要是個詞條,它都要訪問,而且批量性訪問。
這就導致不斷有流量走高價通道。
前段時間維基媒體就發現,那些走美國數據中心的高成本流量,居然有 65% 都是 AI 爬蟲糟蹋的。
要知道維基是免費的,但它的伺服器不是,每年都有 300 萬美元托管成本呢。
不過吐槽可能并沒啥用,所以幾周後維基媒體選擇把資源整理出來,托管在其他平台,讓 AI 公司自取。
其實不光是維基百科,從内容平台到開源項目,從個人播客到媒體網站大家都遇到過類似問題。
去年夏天,iFixit 老板就在推特上吐槽 Claude 的爬蟲在一天訪問了自家網站 100 萬次。。。
看到這,你可能會說,不是一個有機器人協定 robot.txt 麼,不想讓 AI 爬蟲訪問自己的網站,可以把它寫進協定裡。
啊對,在 ifixit 把 Claude 爬蟲添加到 robots.txt 後,爬行确實暫停了下(變成了 30 分鍾一次)
在曾經的互聯網時代,robots 協定的确是個一勞永逸的技術,也有公司因為不遵守吃到了官司。
但擱現在,這個君子協定只能算紙老虎。
現在的大模型公司,能爬盡爬。
畢竟别家都在爬,你不爬,那你的語料庫就不如别人強大,大模型起跑線就會低人一等。
那咋辦——
給爬蟲換一個名字呗(user-agent)。你只說不讓魯迅爬,又沒讓說不讓周樹人爬。
有沒有大模型這麼無恥?可太多了。
之前就有 reddit 網友明明在協定中禁止 OpenAI 的爬蟲,結果對面改了下名字,繼續爬。
再比如 perplexity 也被科技媒體 WIRED 抓包過,根本無視 robots 協定。
這些年呢,大家也在嘗試各種新的辦法。
有人研究出在 robots 協定中放一個壞死鏈接,但凡點進鏈接的一定是爬蟲,畢竟正常用戶是不會點擊這個協定。
還有人選擇借助 Web 應用程式防火牆 ( WAF ) ,基于 IP 地址、請求模式、行為分析綜合識别惡意爬蟲。
也有人決定給網站弄一套驗證碼。
但基本上這些辦法,往往道高一尺,魔高一丈。你抵抗越狠,AI 公司也會采取更殘暴的爬取手段。
所以賽博菩薩 cloudflare 前段時間出了一套技術是監測到有惡意爬蟲,就索性讓爬蟲進來。
當然放它進來,不是給它好吃的,而是做了一道 " 錯飯 " ——
提供一串和被抓取網站無關的網頁,讓 AI 在裡面慢慢看。
cloudflare 的操作還算是收斂着了。
今年 1 月,有網友寫了一款更兇狠的工具,叫 Nepenthes 豬籠草。
和豬籠草殺死昆蟲一樣," 豬籠草 " 将 AI 爬蟲困在沒有出口鏈接的 " 無限迷宮 " 靜态檔案中,讓它們抓不了真實内容。
不光如此," 豬籠草 " 還不斷向爬蟲投喂 " 馬爾可夫亂語 ",來污染 AI 的訓練數據。據說這個技術目前僅有 OpenAI 的爬蟲能逃脫。
好好好,原來 AI 攻防戰,在大模型訓練源頭就已經打響了。
當然了,平台們也可以和 AI 公司達成協定。
比如 Reddit 和推特都向 AI 公司推出了收費套餐,每月使用多少 API、訪問多少推文,我就收你多少錢。
也有沒談成還打起官司的。比如《紐約 · 時報 》商量無果後,就起訴了 OpenAI 抓取自家文章。
看到這你可能會好奇:為什麼維基百科不告這些 AI 爬蟲呢?
世超猜測,這可能和維基百科本身有關。
維基百科的許可協定非常開放。
它大部分内容是允許任何人( 包括 AI 公司 )在遵守署名和相同協定共享的條件下,自由地使用、復制、修改和分發。
所以從法律角度來看,AI 公司抓取、使用維基百科的數據進行模型訓練,大概率還是合法的。
而且就算把 AI 公司告上法庭,但現在業内也沒有對 AI 侵權這塊有個明确的法律界限。這種風險大、成本高、消耗時間久的選擇,對維基媒體來說,并不切合實際。
最主要的是,維基媒體的使命就是——讓地球上的每個人都能自由獲取所有知識。
雖然 AI 爬蟲帶來的伺服器成本是一個問題,但通過法律手段或商業協定,來限制别人獲取資源,或許和他們的使命相違背吧。
照這麼來看,維基媒體選擇把數據整理好,給 AI 公司拿去訓練,也許是最合适,但也最無奈的辦法吧。