今天小編分享的科技經驗:坐擁數據金礦!馬斯克将用X數據訓練AI 強調“僅限公開内容”,歡迎閱讀。
《科創板日報》9 月 3 日訊 馬斯克旗下社交平台 X(前身為推特)最近更新了隐私條款,X 将使用收集到的數據來訓練 AI 模型。
X 最新的隐私條款中明确表示," 我們可能會使用收集到的信息以及公開信息,來訓練我們的機器學習算法、AI 模型等。"
對于此事,馬斯克也直接承認,并補充稱 " 只會使用公開數據,不會使用用戶私信或任何私人數據 "。
值得一提的是,4 月馬斯克曾指責微軟非法使用推特數據,來訓練 AI,并威脅将提起訴訟。同月馬斯克提高推特數據訪問價格,起價為每月 4.2 萬美元,可訪問 5000 萬條推文。
為了收集數據訓練 AI 而更改隐私條款,X 并不是第一家這麼做的公司。
谷歌也已在 7 月更新隐私條款,其中明确,谷歌有權收集任何公開可用的數據,并将其用于其 AI 模型訓練。
換言之,只要是谷歌能從公開渠道獲得的内容,都可以拿來訓練自家的 Bard 模型或未來所有 AI 模型。而在這種情況下,用戶只要繼續使用谷歌服務,便是默認相關信息可以被用來訓練谷歌 AI 模型。
本周,百度、商湯、百川智能等多家公司 / 機構的大模型產品上線開放公眾服務。
而 AI 三大核心要素包括算力、算法和數據,其中數據是 AI 算法模型的 " 飼料 ",AI 技術的訓練需要巨大數據量的大規模數據集投喂。如今,我國生成式 AI 監管,特别是數據使用規則也逐漸清晰。
國家政策層面上,國家網信辦等七部委已發布《生成式人工智能服務管理暫行辦法》已于 8 月 15 日起施行。該檔案對生成式人工智能研發、落地、訓練語料使用等提出規範。券商認為,前期研發積累的 AI 應用有望從 Q3 開始進入上線周期,訓練語料價值或迎重估。同時,其将訓練數據的來源納入監管,有望加速數據版權在 AI 模型領網域的變現。
地方政策層面上,北京的《北京市公共數據專區授權運營管理辦法(征求意見稿)》" 鼓勵公共數據專區探索市場自主定價模式,探索產業發展及行業發展相關應用場景按需有條件有償使用 ";《廣州市數據條例(征求意見稿)》則 " 推動數據要素納入國民經濟和社會發展的統計核算體系 "," 鼓勵企業将數據資源納入企業财務報表 "。
興業證券指出,AI 大模型有望成為數據要素變現第一場景。受制于算力成本、商業模式等原因,國内市場針對 2B 垂直領網域、基于大模型精調之後的小模型有望率先商業化落地。只有掌握核心行業數據,才能訓練出适用于行業的垂直行業大模型。AI 投資除了算力和算法,更要重視數據。