OpenAI主動公開自家爬蟲，只為撇清竊取數據之嫌

今天小編分享的科技經驗：OpenAI主動公開自家爬蟲，只為撇清竊取數據之嫌，歡迎閲讀。

AI 大模型需要海量的數據來 " 喂養 " 這一點，已經是毋庸置疑的事情，而 ChatGPT 之所以表現得如此優秀，背後是 OpenAI 拿出了超過 1750 億個參數。更多的數據幾乎就等于更強的性能，也使得數據的價值在大數據時代之後又一次被放在了聚光燈下。那麼，AI 大模型所需的數據又從何而來呢？

如今擺在明面的方式，是通過 API 向推特、Reddit 等内容平台付費購買，但台面下的辦法可就多了，比如説不合規的網絡爬蟲。沒錯，OpenAI 此前就曾被指控抓取數據來訓練 ChatGPT，并從互聯網上竊取了 3000 億個單詞，它們來自 " 書籍、文章、網站和帖子——包括未經同意獲得的個人信息 "，嚴重侵犯了大量用户的版權和隐私。

事實上，使用網絡爬蟲獲取數據在過去二十餘年來，在全球都屬于灰色地帶，合法性更是始終備受争議，因為爬蟲到底有沒有獲取有版權的内容、有沒有爬取非公開數據、有沒有侵犯個人隐私，在沒有被抓到證據前都處于 " 薛定谔狀态 "。所以為了打消外界的顧慮，OpenAI 在日前也公開了自己的爬蟲 ( GPTBot ) 以及 IP 地址網段，以供有需求的網站屏蔽。

根據 OpenAI 方面的説法，GPTBot 遵守網站提供的 robots.txt 協定，同時會過濾掉付費才能訪問的内容。并且基于 OpenAI 的相關策略，如果網頁中包含個人身份信息或其他違規内容，GPTBot 也會删除這部分網頁。據悉，GPTBot 使用的網段為 40.83.2.64/28，網站管理員可以使用 nslookup 命令來判斷這一爬蟲的真偽，如果想禁止 GPTBot 抓取内容，則可以在 robots.txt 中寫入指令，爬蟲在檢測到該指令後就會按指令要求操作。

robots.txt 也被稱為 robots 協定，這是一種存放于網站根目錄下的 ASCII 編碼文本檔案，它的唯一作用就是告訴網絡爬蟲，網站中的哪些内容是不對爬蟲開放、哪些内容又可以被爬取。而 robots 協定則是控制網站被搜索内容的一種策略，該檔案通常會放在網站的根目錄裏，在網站網域名的後面加上 /robots.txt，就可以直接訪問該網站的 robots 協定協定頁面。

以淘寶網的 robots.txt 為例，這個電商網站的 robots 協定就非常簡單，"User-agent" 主要作用是會告訴網站伺服器，訪問者是通過什麼工具來請求的，後面的 "Baiduspider" 就是大名鼎鼎的百度搜索引擎爬蟲，最後的 "Disallow: /" 按照 robots 協定的規則，是禁止被描述的百度爬蟲訪問。

沒錯，百度搜索引擎被淘寶在 2008 年 9 月時屏蔽，靠的就是這簡簡單單的幾行代碼，讓淘寶在戰略層面掌握了市場競争的主動權，避免了流量被百度搜索引擎拿走，也避免了平台内的商家要給百度競價排名付費的可能，更是間接催生了淘寶的站内競價排名體系。

robots 協定其實本質上來説就是運營方寫的一份規則書，它的書寫非常簡單、邏輯也很直白，諸如允許什麼搜索引擎的爬蟲訪問什麼内容都可以清晰的寫出來。但需要注意的是，robots 協定本身只是一個 " 君子協定 "，是一個搜索引擎和網站之間的共識，它并沒有任何法律效力的、也沒有任何的技術約束，單純只是一個道德層面的約束。換句話來説，robots 協定在技術層面其實是完全對抗不了爬蟲的。

盡管 robots 協定對于非法爬蟲毫無約束力，但是對于重視商譽的公司來説反而具有效力。畢竟以百度的技術力想要強行獲取淘寶的數據并不難，但就是這簡單的四行代碼，就愣是讓百度的爬蟲在過去十餘年裏對淘寶 " 秋毫無犯 "。同理，這次 OpenAI 也是用主動公開自家爬蟲的 IP 地址網段，就是以品牌形象為擔保，将自家爬蟲的一切行為擺在台面上。