OpenAI 首席技術官：不确定 Sora 的訓練數據來自哪裡

今天小編分享的科技經驗：OpenAI 首席技術官：不确定 Sora 的訓練數據來自哪裡，歡迎閱讀。

IT 之家 3 月 18 日消息，OpenAI 近期推出了炙手可熱的文本轉視頻生成模型 Sora，然而該公司首席技術官 ( CTO ) Mira Murati 在接受美國媒體采訪時卻語焉不詳，無法明确說明 Sora 的訓練數據來源。

在采訪中，記者直接詢問 Murati 關于 Sora 訓練數據來源時，她僅以含糊的官方話術搪塞：" 我們使用的是公開可用數據和許可數據。"

當記者追問具體來源是否包含 YouTube 視頻時，Murati 竟然表示 " 我實際上并不确定（I'm actually not sure about that）"，并拒絕回答有關 Instagram 或 Facebook 視頻是否被納入訓練集的問題。她辯稱，如果這些視頻是公開可用且可以使用的，那麼可能會被使用，但她本人對此并不确定。

當記者詢問 OpenAI 是否與其合作夥伴圖片素材公司 Shutterstock 達成過數據訓練方面的合作，Murati 索性拒絕繼續讨論數據來源話題。

Murati 甚至回避記者關于 OpenAI 與圖片素材巨頭 Shutterstock 的數據合作，拒絕透露來自該平台的視頻是否被用于訓練 Sora。最終，她幹脆中止了相關讨論，堅稱數據來源 " 肯定是公開可用或經過許可的 "，卻無法給出任何具體細節。

Murati 這番閃爍其詞的做法讓 OpenAI 陷入尴尬境地。此前，該公司就因數據抓取行為引發廣泛争議，甚至面臨多起版權訴訟，其中就包括紐約時報的指控。如今，連 CTO 都無法說清其最熱門模型的訓練數據來源，難免讓人懷疑 OpenAI 高層對該問題的重視程度。

據報道，采訪結束後，Murati 私下承認了确有使用 Shutterstock 視頻訓練 Sora。然而，相較于網絡上浩如煙海的視頻内容，來自 Shutterstock 的素材可能只是 Sora 訓練數據的一小部分。

IT 之家注意到，Murati 的諱莫如深引發了網友熱議。不少人認為她缺乏坦誠，質疑其對自身產品的了解程度。有人直言，CTO 竟然對如此關鍵的問題不知情，實在令人難以置信。

然而，也有人為 Murati 辯護，認為既然内容已經發布到網絡，就應該允許人工智能公司加以利用。他們認為，用戶既然選擇公開内容，就應該承擔被使用的風險。

Murati 的回避行為究竟是為了防止更多版權糾紛，還是真的對數據來源一無所知，我們不得而知。但可以肯定的是，公眾有權質疑這些 " 公開可用且經過許可 " 的 AI 訓練數據究竟來自何處。未來，含糊其辭的官方說辭恐怕難以平息人們的疑慮。