今天小編分享的科技經驗:OpenAI主動公開自家爬蟲,只為撇清竊取數據之嫌,歡迎閱讀。
AI 大模型需要海量的數據來 " 喂養 " 這一點,已經是毋庸置疑的事情,而 ChatGPT 之所以表現得如此優秀,背後是 OpenAI 拿出了超過 1750 億個參數。更多的數據幾乎就等于更強的性能,也使得數據的價值在大數據時代之後又一次被放在了聚光燈下。那麼,AI 大模型所需的數據又從何而來呢?
如今擺在明面的方式,是通過 API 向推特、Reddit 等内容平台付費購買,但台面下的辦法可就多了,比如說不合規的網絡爬蟲。沒錯,OpenAI 此前就曾被指控抓取數據來訓練 ChatGPT,并從互聯網上竊取了 3000 億個單詞,它們來自 " 書籍、文章、網站和帖子——包括未經同意獲得的個人信息 ",嚴重侵犯了大量用戶的版權和隐私。
事實上,使用網絡爬蟲獲取數據在過去二十餘年來,在全球都屬于灰色地帶,合法性更是始終備受争議,因為爬蟲到底有沒有獲取有版權的内容、有沒有爬取非公開數據、有沒有侵犯個人隐私,在沒有被抓到證據前都處于 " 薛定谔狀态 "。所以為了打消外界的顧慮,OpenAI 在日前也公開了自己的爬蟲 ( GPTBot ) 以及 IP 地址網段,以供有需求的網站屏蔽。
根據 OpenAI 方面的說法,GPTBot 遵守網站提供的 robots.txt 協定,同時會過濾掉付費才能訪問的内容。并且基于 OpenAI 的相關策略,如果網頁中包含個人身份信息或其他違規内容,GPTBot 也會删除這部分網頁。據悉,GPTBot 使用的網段為 40.83.2.64/28,網站管理員可以使用 nslookup 命令來判斷這一爬蟲的真偽,如果想禁止 GPTBot 抓取内容,則可以在 robots.txt 中寫入指令,爬蟲在檢測到該指令後就會按指令要求操作。
robots.txt 也被稱為 robots 協定,這是一種存放于網站根目錄下的 ASCII 編碼文本檔案,它的唯一作用就是告訴網絡爬蟲,網站中的哪些内容是不對爬蟲開放、哪些内容又可以被爬取。而 robots 協定則是控制網站被搜索内容的一種策略,該檔案通常會放在網站的根目錄裡,在網站網域名的後面加上 /robots.txt,就可以直接訪問該網站的 robots 協定協定頁面。
以淘寶網的 robots.txt 為例,這個電商網站的 robots 協定就非常簡單,"User-agent" 主要作用是會告訴網站伺服器,訪問者是通過什麼工具來請求的,後面的 "Baiduspider" 就是大名鼎鼎的百度搜索引擎爬蟲,最後的 "Disallow: /" 按照 robots 協定的規則,是禁止被描述的百度爬蟲訪問。
沒錯,百度搜索引擎被淘寶在 2008 年 9 月時屏蔽,靠的就是這簡簡單單的幾行代碼,讓淘寶在戰略層面掌握了市場競争的主動權,避免了流量被百度搜索引擎拿走,也避免了平台内的商家要給百度競價排名付費的可能,更是間接催生了淘寶的站内競價排名體系。
robots 協定其實本質上來說就是運營方寫的一份規則書,它的書寫非常簡單、邏輯也很直白,諸如允許什麼搜索引擎的爬蟲訪問什麼内容都可以清晰的寫出來。但需要注意的是,robots 協定本身只是一個 " 君子協定 ",是一個搜索引擎和網站之間的共識,它并沒有任何法律效力的、也沒有任何的技術約束,單純只是一個道德層面的約束。換句話來說,robots 協定在技術層面其實是完全對抗不了爬蟲的。
盡管 robots 協定對于非法爬蟲毫無約束力,但是對于重視商譽的公司來說反而具有效力。畢竟以百度的技術力想要強行獲取淘寶的數據并不難,但就是這簡單的四行代碼,就愣是讓百度的爬蟲在過去十餘年裡對淘寶 " 秋毫無犯 "。同理,這次 OpenAI 也是用主動公開自家爬蟲的 IP 地址網段,就是以品牌形象為擔保,将自家爬蟲的一切行為擺在台面上。
畢竟對于 OpenAI 方面而言,這也是其在面臨竊取數據非議時,最簡單、最直接證明自己确實合規的措施。而 OpenAI 這樣對于數據有海量需求、高技術力、且追求 " 盈利上限 " 的公司,一邊是合規獲取海量數據帶來的高昂成本,一邊是尋求外部資金支持需要拿出更好的預期,要自證清白确實也不太容易。
【本文圖片來自網絡】