今天小編分享的财經經驗:AI大模型數據被盜第一案?細節曝光,歡迎閱讀。
作 者丨鍾雨欣 , 鄭雪
編 輯丨王俊
6 月 13 日,筆神作文發布 " 關于‘學而思’ AI 大模型侵權事件的聲明 "。聲明稱,4 月 13 日至 17 日,學而思通過 " 爬蟲 " 技術非法訪問、緩存筆神作文 APP 伺服器數據多達 258 萬次。嚴重侵犯了筆神作文 APP 的數據權益。
對此,學而思官方微博發文回應稱:" 首先,MathGPT 是專注于數學領網域的自研大模型,沒有任何作文相關數據;其次,‘作文 AI 助手’目前處于開發狀态,尚未發布,該服務并未使用筆神作文的任何數據。"
6 月 14 日,筆神作文再度發文,在這篇題為《學而思,你做了一次标準的扒庫示範》的聲明中,其表示 " 我們認為學而思方所述并非事實 ",并列出了相關證據。
受訪專家向 21 世紀經濟報道記者分析,本次風波的實質是授權合同違約糾紛,涉及到對于合同授權範圍條款的解釋。AIGC 產品獲得訓練模型數據授權是合規的根基。
學而思 AI 大模型疑盜取合作商數據?
" 學而思在今年 4 月 13 日至 4 月 17 日,通過‘爬蟲’技術非法訪問、緩存筆神作文 APP 伺服器數據多達 258 萬次。" 筆神作文在 6 月 13 日聲明中表示。
筆神作文認為,這一行為不僅違反了雙方的合同條款,也違反了《數據安全法》相關規定,嚴重侵犯了筆神作文 APP 的數據權益。事後其曾向學而思方面進行取證,并且對方承認是他們的算法組在爬取數據并作為己用,但在收到律師函後始終沒有實質性答復。
記者了解到,筆神作文是隸屬于北京一筆兩劃科技有限公司的品牌,據其官網介紹,筆神是一款人工智能輔助寫作軟體,擁有千萬級寫作素材庫。筆神作文與學而思之間有着多年的合作基礎。
筆神作文稱,在不到一個月的時間,學而思的 AI 大模型 MathGPT 裡包含的新產品 " 作文 AI 助手 " 就即将上線。疑似指後者作文 AI 產品使用了其數據。
筆神作文還表示會通過法律途徑來維護自身權益,但目前國内并沒有 "AI 大模型數據盜取 " 的判決先例。" 希望學而思就此支付 1 元賠償金,并公開道歉,同時删除已爬取的數據。"
各執一詞:正常合作還是 " 扒庫 " 行為?
6 月 13 日晚,學而思發布聲明,從三方面進行回應:
一是,學而思和筆神作文于 2020 年 12 月開始合作,合作協定明确約定:筆神作文為學而思提供 " 筆神作文範文素材服務接口 ",用于學而思相關服務中,每月保底費用包含的調用次數為百萬次量級。合作至今,雙方一直按照調用量進行正常結算。
二是,學而思對筆神作文接口的調用,屬于雙方合同約定的正常合作範圍,對筆神素材内容的使用均符合合同要求,并未用于合同以外的任何用途。
三是,筆神作文在公開聲明中提及學而思正在研發的數學大模型 MathGPT 以及學而思學習機 " 作文 AI 助手 ",并主觀揣測學而思使用其數據用于兩款產品的訓練和研發,這與事實嚴重不符。
" 首先,MathGPT 是專注于數學領網域的自研大模型,沒有任何作文相關數據;其次,作文 AI 助手目前處于開發狀态,尚未發布,該服務并未使用筆神作文的任何數據。" 學而思稱。
6 月 14 日,筆神作文發布《學而思,你做了一次标準的扒庫示範》,表示 " 我們認為學而思方所述并非事實 ",并列出相關證據。
筆神作文稱,學而思在聲明裡提到調用數據為正常使用,筆神作文在合同中明确 " 甲方(注:三體雲聯公司)不得随意洩露、使用、傳播或緩存乙方(注:一筆兩劃公司)服務接口中的作文範本及相關内容,否則造成的損失将由甲方全額賠償 "。同時,在合同中提出 " 甲方不得在未經乙方允許的情況下用于任何其他用途,包括緩存,存儲,作為語料進行計算,訓練等。"
但在 2023 年 4 月 13 日至 4 月 17 日之間,筆神作文檢測到伺服器接口出現大量有規律的異常訪問,導致伺服器承載壓力快速升高。通過查閱伺服器日志發現:三體雲聯公司未經一筆兩劃公司授權許可,用單一 IP 通過 " 爬蟲 " 技術非法訪問一筆兩劃公司伺服器數據多達 258 萬次。
(圖源:筆神作文 APP 微信公眾号)
" 而且,從這個 IP 的訪問日志來看,每次訪問的搜索詞都是作文相關的高頻搜索詞,我們每頁會返回 30 篇作文,每次訪問都是用搜索詞從第一頁逐頁向後翻,這種方式基本上把庫裡同個題目的所有作文全部抓取完了,這種行為不是正常人使用的方式。而且很多訪問的間隔都是 100 毫秒左右,也不可能是正常人訪問的速度。" 筆神作文表示。
(圖源:筆神作文 APP 微信公眾号)
筆神作文認為,這種對數據庫的搜刮式訪問,與以往正常的訪問方式完全不同,按業内的通常說法,這就是一種典型的 " 扒庫 " 行為。
網絡安全專家陳業炫告訴 21 世紀經濟報道記者,所謂 " 扒庫 " 是一個口語化的形容詞,用于形容大規模爬取數據。" 數據爬蟲過程中,爬取的規模大了、頻率高了,就會被認為是非正常行為。通常情況下,高頻率的請求,大規模、每一篇都會訪問的遍歷式行為都需引起關注。"
據陳業炫介紹,爬蟲本身就是程式化的自動行為,比如每秒 10 次的訪問量可以看作是超出普通用戶的行為頻率,正常用戶不會大規模、高頻率的訪問相關網頁。
在這個事件中,哪些行為是被允許的?哪些是不被允許的?" 筆神允許相關合作方查詢、查看數據,但是不能本地化存儲用于機器學習的素材。" 陳業炫說。
據筆神作文介紹,基于雙方的合作精神,筆神作文自己的技術團隊設計了完備的安全機制,正常情況下,可以防止黑客們進行爬蟲攻擊。而只有提供給合作夥伴學而思的接口是不設防的。
如何理解接口不設防?陳業炫介紹,筆神作文方面未對學而思設定反爬蟲措施。" 日常的合作中,開放數據的一方通常需要限制訪問的行為,包括頻率和總量,給自己留以一定的反應時間,以防全部數據被快速抓走。"
21 世紀經濟報道記者多次通過官方電話嘗試聯系事件雙方,截至發稿前未得到回復。
AIGC 火爆出圈,與之伴生的侵權風險問題也引發各界關注。國家網信辦今年 4 月發布的《生成式人工智能服務管理辦法(征求意見稿)》提到,提供者應當對生成式人工智能產品的預訓練數據、優化訓練數據來源的合法性負責。用于生成式人工智能產品的預訓練、優化訓練數據不得含有侵犯知識產權的内容。
中倫律師事務所合夥人王飛指出,以 ChatGPT 為代表的生成式 AI,底層是一款通用的自然語言生成模型,通過互聯網海量的語料庫訓練,對語言文本進行概率建模來預測下一段輸出内容的概率,從而實現根據用戶輸入的文字内容生成對應文字回答的功能。
具體到本次學而思和筆神作文的 "AI 大模型數據竊取 " 風波,王飛表示,這個事件實質是授權合同違約糾紛,涉及到對于合同授權範圍條款的解釋。AIGC 產品獲得訓練模型數據授權是合規的根基,授權的内容和範圍、使用的形式等一般會在籤訂授權合同時予以明晰,但鑑于 AIGC 作為新生產物,怎樣進行約定還要再進行探索,也會是未來 AIGC 產品糾紛產生的主要原因之一。
陝西華格律師事務所律師葛偉超也認為,這主要是基于合同目的而產生的問題。" 雙方可能會因為合同中關于數據使用的範圍、方式、程度等條款約定不明產生不同理解,而對簿公堂。"
那麼,構成 AI 大模型 " 數據盜取 " 行為,有哪些主要的判斷因素?
"AI 數據抓取案件本質上與近年來司法判決的典型數據抓取案件并無差别,都需要判斷抓取數據行為是否損害數據持有者的商業利益與市場競争優勢、是否屬于未經許可使用他人勞動成果、是否違背商業道德、抓取數據是否有合理理由。" 王飛說。
在法律責任方面,葛偉超指出,利用抓取技術破壞他人市場競争優勢,具有并存在為自己謀取競争優勢的主觀故意,違反誠實信用原則,擾亂競争秩序的數據抓取行為,可能構成不正當競争行為。同時也直接違反了《數據安全法》相關規定。
" 如果合作協定中有約定違約責任條款,則依其處理。如果沒有約定該種情形,則屬于侵權範圍,要承擔相應侵權責任,包括但不限于賠禮道歉、停止侵權、賠償損失等。" 葛偉超說。
大模型的開發離不開海量數據助力。當前,數據來源的知識產權已經成為大模型發展的阿喀琉斯之踵。AI 模型開發主體以何種方式、需要承擔何種程度的法律義務以獲取訓練數據,是當前產業需要解決的核心問題。
值得關注的是,傳統的 " 授權許可模式 " 對于大模型的數據訓練存在天然困境,不僅在于實操層面難以落地,更在于對產業研發的長期影響。業界有觀點認為,可以将數據納入合理使用的範疇進行規制。
目前來看,日本、英國、歐盟等已對将數據挖掘作為合理使用的情形進行了立法确認:日本以 " 計算機信息分析 " 的名義規定了文本數據挖掘的著作權例外,英國同樣引入文本和數據挖掘的版權許可或例外情況,歐盟則選擇 " 非科研目的 " 例外的謹慎方案。中國業内也在探讨是否可以通過數據的合理使用解決數據權屬帶來的問題。
對于如何厘清數據合理使用和保護的邊界,葛偉超認為," 首先,要明确擁有數據的經營者權利,即擁有數據所有權還是數據用益權。其次,明确數據抓取行為的性質。再次,明确該種行為損害的法益是數據财產還是競争優勢。最後,需要明确規制該種行為到底适用于競争法、民法、或者著作權法的保護。"
SFC
本期編輯 江佩佩 實習生 趙鳳鈴