今天小編分享的财經經驗:效果炸裂!OpenAI首個視頻生成模型發布,1分鍾流暢高清,網友:整個行業RIP,歡迎閱讀。
剛剛,奧特曼發布 OpenAI 首個視頻生成模型Sora。
完美繼承 DALL · E 3 的畫質和遵循指令能力,能生成長達 1 分鍾的高清視頻。
AI 想象中的龍年春節,紅旗招展人山人海。
有緊跟舞龍隊伍抬頭好奇官網的兒童,還有不少人掏出手機邊跟邊拍,海量人物角色各有各的行為。
雨後東京街頭,潮溼地面反射霓虹燈光影效果堪比 RTX ON。
行駛中的列車窗外偶遇遮擋,車内人物倒影短暫出現非常驚豔。
也可以來一段好萊塢大片質感的電影預告片:
豎屏超近景視角下,這只蜥蜴細節拉滿:
網友直呼 game over,工作要丢了:
甚至有人已經開始 " 悼念 " 一整個行業:
AI 理解運動中的物理世界
OpenAI 表示,正在教 AI 理解和模拟運動中的物理世界,目标是訓練模型來幫助人們解決需要現實世界互動的問題
根據文本提示生成視頻,僅僅是整個計劃其中的一步。
目前 Sora 已經能生成具有多個角色、包含特定運動的復雜場景,不僅能理解用戶在提示中提出的要求,還了解這些物體在物理世界中的存在方式。
比如一大群紙飛機在樹林中飛過,Sora 知道碰撞後會發生什麼,并表現其中的光影變化。
一群紙飛機在茂密的叢林中翩翩起舞,在樹林中穿梭,就像候鳥一樣。
Sora 還可以在單個視頻中創建多個鏡頭,并依靠對語言的深入理解準确地解釋提示詞,保留角色和視覺風格。
美麗、白雪皚皚的東京熙熙攘攘。鏡頭穿過熙熙攘攘的城市街道,跟随幾個人享受美麗的雪天并在附近的攤位購物。絢麗的櫻花花瓣随着雪花随風飄揚。
對于 Sora 當前存在的弱點,OpenAI 也不避諱,指出它可能難以準确模拟復雜場景的物理原理,并且可能無法理解因果關系。
例如 " 五只灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐 ",狼的數量會變化,一些憑空出現或消失。
該模型還可能混淆提示的空間細節,例如混淆左右,并且可能難以精确描述随着時間推移發生的事件,例如遵循特定的相機軌迹。
如提示詞 " 籃球穿過籃筐然後爆炸 " 中,籃球沒有正确被籃筐阻擋。
技術方面,目前 OpenAI 透露的不多,簡單介紹如下:
Sora 是一種擴散模型,從噪聲開始,能夠一次生成整個視頻或擴展視頻的長度,
關鍵之處在于一次生成多幀的預測,确保畫面主體即使暫時離開視野也能保持不變。
與 GPT 模型類似,Sora 使用了 Transformer 架構,有很強的擴展性。
在數據方面,OpenAI 将視頻和影像表示為 patch,類似于 GPT 中的 token。
通過這種統一的數據表示方式,可以在比以前更廣泛的視覺數據上訓練模型,涵蓋不同的持續時間、分辨率和縱橫比。
Sora 建立在過去對 DALL · E 和 GPT 模型的研究之上。它使用 DALL · E 3 的重述提示詞技術,為視覺訓練數據生成高度描述性的标注,因此能夠更忠實地遵循用戶的文本指令。
除了能夠僅根據文本指令生成視頻之外,該模型還能夠獲取現有的靜态影像并從中生成視頻,準确地讓影像内容動起來并關注小細節。
該模型還可以獲取現有視頻并對其進行擴展或填充缺失的幀,請參閱技術論文了解更多信息(晚些時候發布)。
Sora 是能夠理解和模拟現實世界的模型的基礎,OpenAI 相信這一功能将成為實現 AGI 的重要裡程碑。
奧特曼在線接單
目前已有一些視覺藝術家、設計師和電影制作人(以及 OpenAI 員工)獲得了 Sora 訪問權限。
他們開始不斷 po 出新的作品,奧特曼也開始了在線接單模式。
帶上你的提示詞 @sama,就有可能收到生成好的視頻回復。
參考鏈接:
[ 1 ] https://openai.com/sora