今天小編分享的科技經驗:OpenAI 首席技術官:不确定 Sora 的訓練數據來自哪裡,歡迎閱讀。
IT 之家 3 月 18 日消息,OpenAI 近期推出了炙手可熱的文本轉視頻生成模型 Sora,然而該公司首席技術官 ( CTO ) Mira Murati 在接受美國媒體采訪時卻語焉不詳,無法明确說明 Sora 的訓練數據來源。
在采訪中,記者直接詢問 Murati 關于 Sora 訓練數據來源時,她僅以含糊的官方話術搪塞:" 我們使用的是公開可用數據和許可數據。"
當記者追問具體來源是否包含 YouTube 視頻時,Murati 竟然表示 " 我實際上并不确定(I'm actually not sure about that)",并拒絕回答有關 Instagram 或 Facebook 視頻是否被納入訓練集的問題。她辯稱,如果這些視頻是公開可用且可以使用的,那麼可能會被使用,但她本人對此并不确定。
當記者詢問 OpenAI 是否與其合作夥伴圖片素材公司 Shutterstock 達成過數據訓練方面的合作,Murati 索性拒絕繼續讨論數據來源話題。
Murati 甚至回避記者關于 OpenAI 與圖片素材巨頭 Shutterstock 的數據合作,拒絕透露來自該平台的視頻是否被用于訓練 Sora。最終,她幹脆中止了相關讨論,堅稱數據來源 " 肯定是公開可用或經過許可的 ",卻無法給出任何具體細節。
Murati 這番閃爍其詞的做法讓 OpenAI 陷入尴尬境地。此前,該公司就因數據抓取行為引發廣泛争議,甚至面臨多起版權訴訟,其中就包括紐約時報的指控。如今,連 CTO 都無法說清其最熱門模型的訓練數據來源,難免讓人懷疑 OpenAI 高層對該問題的重視程度。
據報道,采訪結束後,Murati 私下承認了确有使用 Shutterstock 視頻訓練 Sora。然而,相較于網絡上浩如煙海的視頻内容,來自 Shutterstock 的素材可能只是 Sora 訓練數據的一小部分。
IT 之家注意到,Murati 的諱莫如深引發了網友熱議。不少人認為她缺乏坦誠,質疑其對自身產品的了解程度。有人直言,CTO 竟然對如此關鍵的問題不知情,實在令人難以置信。
然而,也有人為 Murati 辯護,認為既然内容已經發布到網絡,就應該允許人工智能公司加以利用。他們認為,用戶既然選擇公開内容,就應該承擔被使用的風險。
Murati 的回避行為究竟是為了防止更多版權糾紛,還是真的對數據來源一無所知,我們不得而知。但可以肯定的是,公眾有權質疑這些 " 公開可用且經過許可 " 的 AI 訓練數據究竟來自何處。未來,含糊其辭的官方說辭恐怕難以平息人們的疑慮。