今天小編分享的科技經驗:我跟萬聖節的AI次元壁,看起來要被 PixVerse V3 打破了,歡迎閲讀。
近日,OpenAI 和 Sora 項目的動蕩讓外界對熱鬧的 AI 視頻行業捏了一把汗。
9 月末,OpenAI 首席技術官米拉 · 穆拉蒂(Mira Murati),以及在 o1 模型、GPT-4o、GPT-4v 模型的開發過程中扮演了重要角色的研究副總裁巴雷特 · 佐夫(Barret Zoph)與首席研究官鮑勃 · 麥克格盧(Bob McGrew)也宣布離職。
10 月 4 日,Sora 項目負責人蒂姆・布魯克斯(Tim Brooks)在社交平台 X 上官宣離職,加入谷歌 DeepMind。
如果搭配 Sora 正式版一直沒有确切時間表的現實一起食用,這像極了某個明星項目泡沫被戳破,局中人各自打算的熟悉戲碼。
而最近 AI 視頻的競賽,也開始呈現出一些白熱化。
據 SimilarWeb 統計,位居全球前列的 AI 視頻生成企業 Luma AI 網站在 9 月的總訪問量僅為 1181 萬次,環比下跌 38.49%。紅極一時的 Pika 也在 9 月總訪問量出現跌落。雖然其在 10 月新版本中憑借一批新的模版效果再次爆火,但產品如何持續的吸引用户興趣的問題也逐漸浮出水面。
一些最初對 Sora 持謹慎态度的聲音現在再度被拿出來重新咀嚼,比如電影制作人帕特裏克 · 塞德伯格(Patrick Cederberg)在 4 月所説,他必須讓模型生成數百個短片,才能找到一個可用的短片。換句話説,Sora 的使用非常困難。
所幸的是,Tim Brooks 并沒有告别 AI 視頻,他大概率加入了 DeepMind 的 AI 視頻生成工具 Veo。Sora 的起落或許不是 AI 視頻行業的唯一标尺,至少在能力上,開始有 Meta Movie Gen 這樣的挑戰者開始宣稱幹掉了 Sora。而國内的 AI 視頻產品生态,也一直在有新的變化。
AI 視頻賽道的降温,換句話説,也是下一批更好產品迭代出來之前的醖釀期。而最近似乎有了一個足夠驚豔的產品走入大眾視野。
PixVerse V3 真把次元壁打破了
在市面上的 AI 視頻產品已經充實到讓人開始「視覺疲勞」情況下,PixVerse V3 真的足夠特别?
如果你抱着類似的疑惑,那這只皮卡丘的出現就足夠打消大半。
除了那些無法被復現的發布會演示作品,這大概是 AI 視頻生成中二次元形象和真實世界第一次能夠如此和諧的進行互動。
畫面裏,這只皮卡丘的形象與我們印象中卡通片中的樣子别無二致,但它卻出現在一條真實的繁忙街道上,然後就這麼水靈靈的跳到了一個小哥懷裏。
這是這段視頻所需要的 Prompt:
中置前置攝像頭:皮卡丘站在熙熙攘攘的城市街道上,旁邊是一位背包客,背包客從鏡頭前走過,皮卡丘從背後跑來。跳到了背包客的懷裏。皮卡丘開心的摟着他的脖子,非常親近。行人匆匆忙忙,背包客抱着皮卡丘繼續往前走,皮卡丘的臉頰興奮地閃閃發光,點亮了這一刻。迷人而輕松。
1934 年,米高梅出品的《Hollywood Party》裏吉米 · 杜蘭特用手指」叼着「米老鼠的動作,成為世界影史中卡通與真實影像結合的第一個經典畫面。90 年後,這個充滿巧思但在實現上卻異常繁瑣的效果終于可以用 AI 來代為效勞。
離譜的是,皮卡丘是 AI 做的,皮卡丘所在的真實世界也是 AI 做的。從效果看,PixVerse V3 對于動畫進入現實世界這件事,理解的相當絲滑。
不止是皮卡丘,你還可以用用下面這段看起來要素過多的 Prompt,來生成一個馬裏奧大叔進火車站的視頻:
The video shows a bustling train station filled with a diverse crowd of passengers eagerly waiting for their trains. The camera sweeps across the scene, capturing the lively atmosphere. Super Mario, a stout Italian character with a round face, dons his iconic red hat and blue overalls. The camera closely follows Mario as he steps confidently onto the platform, his face beaming with excitement.. The video is in a realistic style.
視頻中,火車站熙熙攘攘,各色乘客焦急地等待火車。鏡頭掃過整個場景,捕捉到熱鬧的氣氛。當火車緩緩駛近站台時,鏡頭緊跟身材魁梧、臉龐圓潤的意大利人物超級馬裏奧,他戴着他标志性的紅帽子和藍色工作服,自信地走上站台,臉上洋溢着興奮的笑容。視頻的風格很寫實。
畫面裏有着鮮明的主角馬裏奧,背後熙熙攘攘的人群每個人都有各自不同的動作細節,而在馬裏奧沿着鏡頭向前走的同時,動畫人物與真實環境相交的邊緣處理的也非常清晰幹淨,與此同時,火車也進站了。
如果卡通人物已經滿足不了你的胃口了,那我們來看看 PixVerse V3 在大場面上的發揮。
——關鍵詞:巨龍入睡。
完整的 Prompt 是這樣的:
Steadycam tracking shot of a dragon diving into the water, the monk raises his arms in appreciation.
由斯坦尼康穩定器跟蹤拍攝:一條龍潛入水中,僧人舉起雙臂以示贊賞。
雖然視頻中仍然缺乏 Prompt 中提到的一些細節,但總體上無論是從運鏡的連貫程度,還是用陰郁的影調來微妙的表現畫面張力的能力,以及對遠景的怪獸、前景的廢棄汽車的刻畫,PixVerse V3 的視頻生成能力都已經開始逼近電影級的畫面質感。
除了文生視頻,此次 PixVerse V3 也展現了優秀的圖生視頻能力。
圖生視頻的想象力可就大了,你可以試試找一張帥氣的美國西部電影海報,加一段 Prompt,讓他做一些「離譜」的事——比如碰到了一把質量不太好的左輪槍:
Prompt 是這樣的:
The pistol misfires with black smoke, which makes the man's face dirty.
手槍啞火,冒出黑煙,弄髒了男子的臉。
PixVerse V3 在文生視頻和圖生視頻能力上給人最鮮明的感受,就是它無比接近普通人日常生活中的興趣點。事實上,除了專業的視頻創作相關從業者,沒有太多人有用 AI 視頻軟體雕刻一段完美影視作品的需求。反而更多剛用上視頻生成能力的人,他們的好奇心在于這個能力能不能和真實世界甚至自己玩在一起。比如把喜歡的卡通形象引入自己每天出入的場合,甚至把自己變成鋼鐵俠之類的動漫人物。
AI 視頻產品目前遇到的困局,很多都是因為陷在技術能力的自嗨裏,而用户的身影消失了。在這個文生視頻技術剛剛嶄露頭角的階段,可能更大多數的普通人所中意的,首先是一個足夠靠近自己,又足夠親和的 AI 視頻產品。
從這個角度上來看,當下的 PixVerse V3 或許是那個把用户心思猜的最準的產品。
PixVerse V3 的驚豔除了歸功于 PixVerse V3 背後 AI 視頻大模型的能力迭代之外,其在提示詞理解能力上的優化也功不可沒,相信看到上面這幾個 Prompt 示例,細心的人已經看出來了。
" 主體 + 主體描述 + 運動 + 環境 " 是一個讓 AI 視頻生成時能最大可能發揮效用的 Prompt 公式,相比 V2.5,現在你可以對 PixVerse V3 增加一個「鏡頭描述」的維度。
當然,除了遵循這個公式,Prompt 需要盡可能詳細描述人物的動作,避免太過簡單的描述。
同時,PixVerse V3 在輸出視頻的選擇上也更加豐富,在輸出視頻的格式上 PixVerse V3 支持包括 16:9、9:16、3:4、4:3、1:1 在内的多種視頻比例,風格化功能也在本次版本更新後得到更新,現在文生視頻和圖生視頻兩種模式同時支持動漫、現實、粘土和 3D 四種風格選擇。
一句話來説就是,這次 PixVerse V3 不僅變強了,它甚至想要把產品説明説一行行交到你手上。
社交平台 X 上,很多 AI 產品的關注者已經開始上手 PixVerse V3,比如粉絲眾多的 Pierrick Chevallier。他甚至整理了一個專門的帖子來展示自己用 PixVerse V3 生成的視頻。除了強大的生成能力以外,吸引人眼球的是他在其中展示了很多非常「萬聖節味兒」的視頻。
這個萬聖節,讓 PixVerse V3 來「搞效果」
一個足夠有趣的 AI 視頻產品的破圈,除了要有足夠的技術能力支撐,也需要一個好的契機。説起來 PixVerse V3 的發布也算得上恰逢其時。
11 月 1 日就是萬聖節,10 月末的此時此刻,正是年輕人一年一度的想象力巅峰期。結合萬聖節主題,PixVerse V3 一并發布了一系列萬聖節主題模板,讓你能夠用 AI 對身邊的一切「施法」。
此次 PixVerse V3 發布的萬聖節主題模板總共有 8 個,其中有一類主打的是「大變活人」。
比如無中生有的在城市裏變出一只怪獸。
除了這種大場面,PixVerse V3 可以直接讓一張照片裏的的元素「活」起來,比如讓《我在雨中等你》中的那只小狗從照片裏真實的走出來:
小狗起身前甚至還有個抬頭的自然動作。而從照片裏走出後,原來的照片只留下一片平靜的草坪,整個效果還是挺驚豔的。
這個模版也有更打開想象力的玩法。比如,能不能讓達文西筆下的維特魯威人從那個框住他的圈裏走出來?
類似這樣:
萬聖節能拿出這麼一個節目也足夠驚豔全場了。
這次 PixVerse V3 為萬聖節準備的第二類模版,走的是抽象路線。
比如讓一個鐵盒站起來逃跑:
或者把一輛保時捷打散,變成一堆積木:
當然,這次 PixVerse V3 的模版中也有很多更有萬聖節味兒的效果可以玩,比如給人物照帶上一頂巫師帽,然後動起來,就像這樣:
這些萬聖節模版包含在 PixVerse V3 全新上線的 Effect 功能中。使用起來很簡單,上傳圖片後,選擇你想要的效果點擊即可進行生成,這中間不需要再費心思輸入 Prompt 了,對一門心思都想着萬聖節的人來説非常友好。
而此次 PixVerse V3 顯示了更強的多模态生成能力,在本身文生視頻以及圖生視頻的基礎上,PixVerse V3 現在可以讓生成的視頻帶上用户想要的聲音内容,并且如果原本的視頻長度不夠長,PixVerse V3 現在有能力對原視頻進行進一步的延續創作。
這些多模态生成能力也變成了與 Effect 一同在 PixVerse V3 首發的兩個新功能。第一個功能是能為視頻生成多語言人物聲音同步的對口型功能 Lipsync。
Lipsync 功能允許用户在生成的視頻基礎上,自己輸入輸入文案或上傳音頻檔案,然後 PixVerse 會自動根據文案或音頻檔案内容,對視頻中的人物口型進行适配。目前 Lipsync 能夠支撐 30 秒的視頻長度,可以對口型的語言已經包括了英語,漢語,法語,日語四種。
另一個功能是視頻延長 Extend,或者可以理解為故事續寫。
針對現在生成視頻長度過短的問題,在 PixVerse V3 中用户可以選擇已經生成的視頻,點擊「Extend」按鈕,輸入與視頻如何進一步發展相關的提示詞,點擊「create」,原視頻就會照着拟定的方向實現情節遞進,同時保持人物和動作高度連貫一致。
多模态視頻生成能力的加入,PixVerse V3 現在能夠生成叙事量更大、視聽效果更佳的 AI 視頻,AI 視頻創作的邊界也進一步被拓寬。
做一個真正能玩起來的 AI 視頻產品
「當普通用户也能用起來時,才是 ChatGPT 時刻。」愛詩科技創始人兼 CEO 王長虎在今年 4 月的一次采訪中説道。
過去兩年,大模型技術透出的每一絲新的微光都會轉變成一場場關于生產方式新的宏大叙事,仿佛人類的生活會在短時間内被完全颠覆。但到目前為止,這一切還并沒有發生。
與此同時,Sora 帶來的興奮以及過于宏大的技術想象力讓整個 ai 視頻產品領網域逐漸失焦,找不到與大眾生活的連接處。所以一方面 runway 這種定位是專業工具的 AI 視頻產品由于過高的使用門檻而難以破圈,而定位更偏大眾的產品則陷入一種在眾人嘗鮮後的「閲後即焚」困境,用户在新鮮勁過了之後難以留存,產品缺乏明确而具體的發展思路,于是只好向着「濾鏡化」「特效化」的簡單邏輯下沉。
換句話説,AI 生成能力巨大的的開放性讓 AI 視頻這個領網域目前幾乎所有產品都像是某種半成品,生成内容的随機性和不可控被包裝成一種新奇體驗,也同時意味着其難以在一種具體而具有持續性的場景中被使用起來。
就像當外界被 Sora 氣球人的生成能力所驚豔的時候,帕特裏克 · 塞德伯格則被 Sora 内容生成一致性的缺乏所困擾,他抱怨氣球的顏色在每次生成中都會改變,而這樣的瑕疵意味着大量後期制作的工作量仍然不可避免。類似的問題很多,這也是為什麼雖然好萊塢一年前已經開始為大模型對電影工業潛在的颠覆可能罷工,但一年後,sora 仍然無法真正進入影視的工作流。
眼下 AI 視頻產品也都或多或少的陷入了類似的處境——雖然 AI 視頻生成能力已經讓所有人興奮了很長一段時間,但 AI 視頻生成產品仍然是一場看起來很美的「賣家秀」。
在新的技術洪流面前,一個產品要保持「具體」很難。但愛詩科技從最初的 PixVerse 網頁版到現在 PixVerse V3 傳遞出來的卻是一條難得的清晰有序的迭代路徑。
今年 1 月,愛詩科技正式發布了文生視頻產品 PixVerse 網頁版。但當時包括 PixVerse 在内,幾乎所有的文生視頻產品都會遇到的問題是生成形象的不可控,這意味着用户無法持續性的圍繞統一角色來生成視頻内容。3 個月後,PixVerse 網頁版搭載了基于自研視頻大模型開發的 C2V(Character to Video)功能,通過精确提取人物特征來鎖定角色,初步解決 AI 視頻創作中的一致性難題。
把視頻中的「角色」固定下來之後,PixVerse 把之後的迭代重心放在了生成内容中行為的「可控」上。今年 6 月,愛詩科技發布 Magic Brush 運動筆刷,用户可以通過對視頻畫面中内元素簡單的塗塗抹抹,來精确控制各個元素的運動及運動方向。7 月末 PixVerse V2 上線,產品中除了展現了足夠多對生成内容的控制能力,Prompt 難度也又了大幅下降,同時微調生成效果的手段則趨于豐富。
這又是一次意圖非常明确的迭代——「具體產品形态需要去試,但最終我們還是希望服務廣大普通用户」,就像王長虎在此前一次采訪中所説。
在視頻生成能力還不能直接滿足普通用户的需求時,服務專業創作者,基于新的内容生成範式去做下一代的工具是更優先的選擇。「當生產要素被技術囊括後——比如 AI 把拍攝時的演員、場景、攝影機取代了——這時候 AI 視頻生成能力就可以開始為大眾所用,用户的圈層會逐漸擴大,就會產生巨大的機會。」
此次 PixVerse 3V 開始嘗試推出更多與普通人生活相關聯的玩法,并且嘗試用 Prompt 來設定鏡頭,後者可以被看作是一種部分代替攝影機的嘗試。如此看來,愛詩科技對產品方向的打磨一直在一條很笃定的道路上。
在 AI 視頻生成這場以發散性為美的技術浪潮中,愛詩科技的選擇是與整體的流勢相反,遠離宏大叙事,給出一個 AI 視頻產品可以怎麼玩的,最具體的方案。
只有盡可能的讓人拿在手裏玩起來,AI 視頻應用才會從 Sora 所引領的一場「賣家秀」,過渡到生機盎然的「買家秀」。
PixVerse V3 的驚豔登場,或許就是這場 AI 視頻「降温」背後,另一場積極變化的開始。
* 頭圖來源:PixVerse V3
本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO