今天小編分享的科技經驗:實測 Sora!比拼可靈、Runway,誰最沒有 AI 味,歡迎閱讀。
鴿了一年,Sora 千呼萬喚始出來,但 OpenAI 是讓網友來歷劫的。
說好的正式開放使用,蹲點直播且手速夠快的幸運兒,才能搶先進入體驗。等了一天,反復刷新,一次次面對「請稍後回來查看」的提醒,終于注冊成功。
然而,讓我和 ChatGPT 從詩詞歌賦聊到人生哲學的 20 美元,只夠讓 Sora 在一個月内生成 40 個 5 秒的 480p 視頻。每一次點擊生成,都如履薄冰。
好不容易用上了,我們自然要把每一個 Sora 的視頻用在刀刃上,拿它和 Runway、可靈比一比。結論是,能用,好玩,但很難硬誇。
Sora、Runway、可靈,失敗得各有各的笑點
讓 Sora 和 Runway、可靈比賽,自然是有理由的,一個是出道早、海外最有代表性的 AI 視頻產品,一個是異軍突起、以實力征服全世界網友的國内頂尖選手。
規則非常簡單,用相同的英文提示詞(為了方便閱讀,下面都翻譯為中文),生成的時長都是 5 秒。唯一的區别是,Sora 的分辨率都設定成了 480p。沒辦法,積分得省着用。
先用文生視頻,比比畫面的寫實和質感,看看 AI 視頻們生成的貓怎麼樣。
Sora 雖然只有 480p,但畫面看起來是高清的,調色也很漂亮。
▲ Sora 生成,提示詞:200mm 長焦鏡頭捕捉陽台上的英短貓,其毛發細節鮮明。前景的大盆栽輕微虛化,背景中樹葉随風搖曳。畫面具有電影膠片的顆粒感和色彩飽和度,高清畫質
Runway 和可靈的表現差不多,可靈的前景、背景生成得最準确。三只貓,三種花色。
▲ Runway 生成
▲可靈生成
接下來,讓 AI 視頻們「寫字」,看看能不能寫出「APPSO」。
Sora 的手部動作還算自然,但寫出來的線條像吃了菌子,有自己的想法。
▲ Sora 生成,提示詞:俯視角度拍攝手在白色素描紙上書寫「APPSO」,黑色筆畫,流暢的書寫動作,自然的手部移動,柔和打光,特寫鏡頭
Runway 對得最多,但也沒完全對,而且,除了最後那一筆,字母軌迹和手部動作沒有默契配合,各管各的。
至于可靈,寫出一串亂碼,但很難得,字母軌迹是跟着手部動作走的。
然後再來考考運動的流暢程度,同一場自行車比賽,Sora 的鏡頭和運動軌迹完全遵循了提示詞,影子看起來也很真實。
▲ Sora 生成,提示詞:山地自行車手快速衝過連續起伏的泥土賽道,從最後一個跳台騰空而起,側面鏡頭捕捉他在最高點的瞬間
Runway 的提示詞只對了一半,自行車手沒在開頭出場,最後給了一個高光鏡頭。
可靈和 Runway 恰好反過來,前半段表現得不錯,但收尾出狀況了,怎麼多出來一個人?
該上難度了,拿出相對復雜的、自帶鏡頭切換的提示詞。
Sora 的畫面色彩飽和,像調了色,但是男性好像是憑空出現的,AI 也沒有按照要求,把鏡頭轉向男性。
▲ Sora 生成,提示詞:陽光明媚的下午,星巴克風格的咖啡館内,鏡頭首先對準一位面帶微笑的年輕中國女性,随後轉向一位說話時輕輕點頭的年輕中國男性。他們相對而坐,木桌上放着兩杯咖啡。自然光充滿空間,營造溫暖氛圍
Runway 直接就從側面拍,還原了兩個人的神态,但沒有體現鏡頭的運動,男性的手部也出了問題。
可靈和 Runway 差不多,但略勝一籌,因為更像中國人,然而,這兩個人同坐一桌,卻誰也沒看誰。
除了文生視頻,圖生視頻也是視頻生成的重頭戲,而且相比文生視頻,圖生視頻更實用,很多商業化交付的 AI 片子,基本都是圖生視頻,先在圖片階段盡量做到一致性。
然而,如果只是 20 美元的 Plus 用戶,是不能在 Sora 上傳包含人物的照片或者視頻的。退而求其次,我們上傳一張巫師貓的表情包,讓貓貓揮舞手中的魔法棒,變出玫瑰花。
不知道為什麼,Sora 的圖生視頻不起作用,貓壓根沒動,從右下角的 logo 才看出,這是非靜止畫面。
▲ Sora 生成,提示詞:貓貓揮動手中的魔法棒,變出了一朵紅玫瑰
Runway 讓貓貓右爪揮舞魔法棒,左爪變出玫瑰花,也算符合提示詞的要求,但這個花不在一個圖層啊。
可靈的表現非常完美,效果最自然,做成 gif 就是又一張表情包。
試了動物,再試試空鏡,我将之前用 AI 生成的一張工業廢土風格圖片,作為圖生視頻的材料。
Sora 生成的結果很難評價,視角是夠低的,但鏡頭不是從側面跟蹤,畫面切換也突兀。這就叫,我不該在車裡,而是在車底。
▲ Sora 生成,提示詞:裝甲車開過,輪胎揚起塵土碎屑,側面跟蹤鏡頭,低角度視角,慢動作,電影級質感
Runway 生成的最有内味,甚至車窗也跟着動起來了。
可靈直接把鏡頭拉遠了,和提示詞基本沒什麼關系。
就那麼幾道題,三個 AI 沒有一個是可以打滿分的。當然,以上通通都是個例,不具有普遍的代表性,充其量只能提供一個測評的角度。
單論 Sora 的話,它在文生視頻的寫實風格上表現得不錯,具有電影質感,物體運動對于提示詞的遵循也還行,有時甚至比可靈和 Runway 表現得好。
但圖生視頻容易抓瞎,可能靜止不動,可能不聽鏡頭運動,整體性價比不算高。
▲ Sora 生成,提示詞:90 年代在上海拍攝的 35 毫米膠片短片,電影質感
「丐版」的模型,創新的產品
Sora 表現一般,可能因為,它是個「丐版」——和受 OpenAI 邀請的藝術家們不同,現在我們能用的是 turbo 版本,需要的算力更少,效果也就打了折扣。
模型不夠,產品來湊,Sora 有一點讓人服氣—— 2 月官宣,12 月才發布,中間冒出很多競品,但 Sora 仍然具備它們沒有的功能。
不像 ChatGPT 一個對話框走天下,Sora 在互動界面和產品功能的設計上别出心裁。
其中,Sora 的故事板功能,類似首尾幀,但更靈活,我們可以在時間軸上添加多張卡片,卡片裡可以是提示詞,也可以是圖片和視頻,Sora 在卡片之間生成完整的視頻。
于是,我寫了兩段提示詞,1. 日劇風格鏡頭,女高中生靠在天台欄杆旁,側臉構圖,溫柔的午後光線打在臉上;2. 她轉頭面向鏡頭露出微笑,溫暖的打光突出表情。
生成的效果,很符合我的想象,發絲的飄動讓人該死的心動。
▲ Sora 生成
AI 還做不到讓人人都能當導演,但 Sora 讓你體驗一把設計分鏡的感覺。不過,還是那句話,模型就這樣,效果的好壞,非常随機,但 Sora 的積分,經不起抽卡。
我本想讓 AI 模仿遊戲 CG 的效果,主角迅速轉身并拔槍,但最終,得到了一個表情呆滞的機器人。
▲ Sora 生成
只在故事板放上一張圖也可以,這樣 Sora 會自動生成提示詞,建議你這張圖片怎麼動。
于是,巫師貓終于可以動起來了。原來,圖生視頻的短板,是要在這裡彌補啊。然而,效果也很難繃,有時候會生成一些多餘的東西。
另外,Sora 的 Remix(重繪)功能也很好玩,我們可以用自然語言編輯視頻,改變視頻中的元素,進行「二創」。
既可以用自己的視頻,也可以在 Sora 的社區裡借用他人的視頻。
▲ 圖片來自:Sora 社區 @bpyser1
比如,我們可以把跳舞的真 · 紙片人換成男團,同時,把場景換成練習室。
紙人的動作和服飾都大致保留了,但人物的四肢還是不能細看。
更好玩的來了,我們可以接着用 Blend(混合)功能,将兩個視頻合并成一個,Sora 會自動處理視頻之間的過渡效果。
原來以為,可以出來一個絲滑的 MV 片段,畢竟這兩個視頻都這麼相似了,但 AI 還是給了我驚喜,開頭和結尾都很正常,中間的場面一度很混亂,你們到底幾個人啊?
總之,不追求出片率的話,Sora 很好玩,產品形态也很有意思,提供了一個全新的工作流,創新是有的,功能也是比較完整的。
但是,僅從目前來看,生成效果的進步空間較大,但給用戶的探索次數又不足,20 美元只能淺嘗辄止。有時候畫面很漂亮,但運動處理得不好,也是白搭,「現實不存在了」還是一個遙遠的夢想。
請欣賞,貓貓穿牆而過,原來在 AI 眼裡,貓真的是液體。
▲ Sora 生成,提示詞:電影感十足的黑貓特寫鏡頭,貓咪在故宮紅色宮牆前優雅地躍起,畫面以慢動作呈現,貓咪全身清晰可見,背景利用淺景深虛化處理,在跳躍最高點時金色的眼睛直視鏡頭。采用柔和的自然光線,傳統的中式建築牆面細節形成模糊的背景
Sora 的問題,其實也是很多 AI 視頻產品的通病,沒有真正靠譜的一刀流。模拟真實的世界?實現絲滑的運動?保持人物的一致?可以是可以,但有概率,抽卡和後期必不可少。
現在我們看的是肉眼可見的生成效果,而 AI 視頻們集體改變的,是創作的方式。未來雖然可期,但是,Sora 請先把模型更新了吧。