今天小編分享的科技經驗:Sora「翻車」:猴子長出鹦鹉尾巴,物體學會「穿牆術」,歡迎閱讀。
「一只鹦鹉飛過青翠的哥斯達黎加叢林,然後降落在樹枝上與一群猴子一起吃一塊水果的俯視圖;黃金時段,35 毫米膠片。」這是彭 * 博社給到 OpenAI 研究人員的提示詞,後者使用這些提示詞在 Sora 上創建了場景。
23 日,彭 * 博社聯系 OpenAI 對 Sora 進行了測試,從結果來看, Sora 還未到「黃金時段」。
在給到的四句提示語中,由于時間限制,Sora 團隊只将其中兩句提示詞生成了視頻。
問題出現了。
在時長僅有 10 秒的視頻中,一只鹦鹉在叢林中飛翔,乍看正常,細看就會發現,鹦鹉的翅膀在飛過猴子時會扭曲,并且,提示語中之要求「一只鹦鹉」, Sora 輸出的視頻裡卻出現了好幾只,并且,視頻中一只猴子的臀部似乎還有一條鹦鹉的尾巴。這麼看,似乎有點「翻車」即視感。
Sora 生成的鹦鹉與猴子|視頻來源:彭 * 博
對此,OpenAI 研究科學家 Bill Peebles (比爾 · 皮布爾斯)也對彭 * 博承認了這一點,「确實片段中到一些奇怪的動作。」
在 The Verge 截取發布在 TikTok 上的這段由 Sora 生成的視頻片段中同樣可以看到一些不合理的情況,包括物體相互穿過、變形,這背後反映的是 Sora 在還不能夠準确理解和呈現物體的物理特性:籃球穿過籃筐的側面,狗在走路時相互穿過,手的形狀也有點奇怪。
籃球穿過籃筐的側面|圖片來源:TikTok
狗在走路時相互穿過|圖片來源:TikTok
YouTube 上也有一位博主更為詳細地解析了 Sora 產出的視頻中存在的問題,與 The Verge 展現的類似,除了狗狗似乎在互相穿過身體的那支視頻,在一只柯基犬的 vlog 裡,有一只海鷗飛到了相機前卻又突然消失,随後畫面裡又出現了另一只,以怪異的方式在行走;在一個建築工地的視頻裡,一輛叉車似乎可以不受周圍物體的影響輕松通過。此外還有一個生日派對的場景,參與者的表情和動作看起來都有種說不出的詭異感。
看起來,雖然 Sora 可以生成出色的視頻,但當場景復雜時,它可能會給出一些不符合現實場景的動作。OpenAI 官方也表示,Sora 還有很長的路要走,有很多技術挑戰需要解決——包括前面提到的身體部位的雜亂問題和對物理學的理解水平。
OpenAI 在 Sora 的技術報告中指出,Sora 作為視頻生成模型在模拟現實世界時面臨一系列挑戰和局限性。具體來講,Sora 在技術層面存在以下主要局限:
物理互動的準确性:Sora 在模拟一些基本的物理互動現象時存在不足,例如無法準确模拟玻璃破碎等物理現象。 對象狀态變化的一致性:在模拟如進食等互動時,Sora 可能無法產生正确的物體狀态變化,導致視頻中出現不連貫的視覺效果。 長期樣本的連貫性:在生成較長時間跨度的視頻樣本時,Sora 可能會出現連貫性問題,導致視頻中出現不自然的過渡或物體的突然變化。 物體的自發出現:Sora 有時會在視頻中自發地生成物體,這些物體可能與場景不匹配或在邏輯上不合理。 手部和身體部位的處理:Sora 在處理手部和身體部位時存在問題,如手部可能表現得不自然或與其他物體發生不真實的互動。 計算資源的需求:Sora 生成視頻需要較多的計算資源和時間,這限制了其在實時或快速響應場景中的應用。 模型的泛化能力:盡管 Sora 在某些特定場景下表現出色,但它在泛化到新場景和處理多樣化輸入方面可能還有待提高。 視頻編輯和擴展的能力:雖然 Sora 能夠執行一些視頻編輯任務,如擴展視頻或改變場景設定,但這些功能可能在復雜場景中表現不佳。
由于上述技術局限,在讓外界驚鴻一瞥後,Sora 的短暫「翻車」似乎也并不令人意外。
作為一款文本轉視頻模型,Sora 采用了 Diffusion transformer 技術(包括特征提取、編碼、序列組合等多個步驟)。
與大模型處理文本的原理類似,Sora 将視頻内容分解成一系列 patch(視覺編碼塊),這些 patch 類似于視頻的視覺詞匯,然後,它會對這些 patch 進行降維處理,以便于分析和理解,在這一過程中,Sora 通過去噪技術,從帶有噪聲的 patch 中預測出清晰的原始影像信息,最終合成為連貫的視頻。換句話說,Sora 的訓練過程類似于人類的認知過程,這一點讓它極大地優化了視頻生成的效果。
随着技術的突破,問題會解決。對于推新飛快的 OpenAI 來說,應該用不了很久。