今天小編分享的科技經驗:火遍小紅書的 AI 視頻神器,這次整出的新活又讓我停不下來,歡迎閲讀。
AI 視頻的多主體一致性,向來是個難題。讓 AI 憑空生成模特和衣服不難,但如果甲方要求,必須要讓馬斯克代言,穿上毛絨大衣,AI 可能就辦不到了。
Pika 最近更新的 2.0 模型,提出了一種很有趣的解決方式——我們上傳多張圖片,Pika 會精準參考圖片中的元素,生成視頻。
集齊人物、商品、場景的照片,一個非常基礎的廣告片就出爐了,而且這些素材在視頻裏長得都和照片裏一樣。
這是否意味着,AI 視頻的一致性難題解決了,廣告行業的朋友們又要焦慮了?其實并沒有,經過實測,Pika 的可玩性很高,但論實用,道行還不夠。
馬斯克和奧特曼看電影,名畫吃薯條,同框從未如此簡單
Pika 上傳多張參考圖片的功能,叫作「Scene Ingredients」(場景成分)。
使用起來很簡單:1. 點擊「+」上傳圖片,上限 6 張;2. 在文本框裏,寫上簡單的提示詞。
接下來就進入實操——讓鬧得水深火熱的馬斯克和奧特曼,化幹戈為玉帛,在一起看電影。
▲提示詞:兩個人坐在漆黑的觀眾席中。他們手捧一桶爆米花,一把放到嘴裏嚼着,全神貫注地看着眼前的場景。他們睜大眼睛的表情傳達出熱切的期待或着迷,仿佛他們完全沉浸在正在展開的戲劇或場景中。周圍的環境表明人群擁擠,但焦點仍然集中在他們的反應上
上傳兩位的照片就夠了,觀眾席可以用提示詞寫出來。
對于馬斯克,AI 的發揮很穩定。但奧特曼看起來是地主家的傻兒子,吃相恐怖就不説了,眼睛大得要掉出來。
Pika 很有趣的一點是,素材可以「復用」。
所以,我們可以讓馬斯克和奧特曼過把模特瘾。只上傳一張服裝圖片,然後通過提示詞,讓他們穿着一樣的綠色大衣,拍個時尚大片。
▲提示詞:兩名男子在壯麗的冬日風景中站在一起自拍。兩人都穿着相同的綠色長外套。全身照,從頭到腳展現他們。他們擺出專業模特般的姿勢,臉上挂着自信的微笑。電影燈光突出了他們的臉龐和外套的奢華質感。高端時尚攝影風格,專業相機品質,時尚雜志美學
兩人的照片都找了現成的,綠色的大衣和冰天雪地的背景是另外用 AI 生成的,衣服上的「AIGC」,算是考驗 Pika 的附加題。
結果,場景和大衣的一致性保持得不錯,「AIGC」的字樣依稀可以辨認,兩位模特的動作也遵循了提示詞。
但最大的問題是,這兩人是誰?視頻的人臉和照片,不能説一模一樣,可以説是毫不相幹。
不信邪,繼續讓 Pika 玩換裝。
這次,我們請出扎克伯格,照例先用 AI 圖片工具生成衣服,上面寫着「I was human」(我曾是人類),呼應經典的機器人梗。
然後,再找一張扎克伯格的圖片,和一把尤克裏裏的圖片,讓小扎玩個音樂。
▲提示詞:一位身穿黑色 T 恤的男子站在温馨的房間裏,彈奏着尤克裏裏琴。鏡頭從中遠景開始,展現他的整個身體,逐漸拉近,最後聚焦在 T 恤上的字迹上
Pika 對提示詞的遵循和鏡頭的運動都挺好,衣服也絲滑地穿上了,但右手,尤其大拇指,還是不完美。
相較 Google Veo、OpenAI Sora 等,Pika 的模型能力不算頂尖,一個問題解決了,還有更多的 bug 被發現。
嘗試了寫實的,再來試試二次元畫風,為了讓坂田銀時和漩渦鳴人同框,我特意挑選了兩張背景都是藍天白雲的圖片。
▲提示詞:動漫風格的場景,鏡頭聚焦在兩個年輕男子的臉上,背景是蔚藍的天空和白雲。他們一邊聊天一邊眼神交流,保留了原有的動漫藝術風格
背景融合得很自然,兩位正面的表情發揮不錯,吹動頭發和衣服的風也恰到好處。然而,轉身實在太可怕了。銀時是死魚眼,不是真的翻白眼啊喂。
次元壁都打破了,當然也可以讓名畫跨年代互動——蒙娜麗莎和戴珍珠耳環的少女在麥當勞餐廳吃薯條。
▲ 提示詞:蒙娜麗莎和戴珍珠耳環的少女正在麥當勞餐廳用餐。她們相對而坐,桌上擺着薯條。她們邊聊天邊品嘗薯條,攝影機從側面捕捉她們,兩位角色偶爾看向鏡頭,營造出一種随意而友好的氛圍
效果一言難盡,看到蒙娜麗莎,不知道達文西想不想掀棺材板。兩位好像貼圖一樣,被放在了視頻裏,頭部也運動得非常詭異。
有時候,回歸簡單,道法自然,結果反而超出預期。
▲提示詞:特寫鏡頭,池塘表面出現氣泡,然後咖啡杯從水中浮出
上傳一張星巴克的圖片,一幅莫奈的睡蓮,就可以得到一個「清水出芙蓉」的咖啡杯。
PK 國產模型,控制 AI 視頻的門檻更低了
一定程度上,Pika 提高了視頻的可控性。話不説滿,因為從實踐看來,Pika 在場景、服裝、物品上的一致性保持地較好,人物的臉容易崩,不管是什麼次元。
同時,模型的基礎能力,Pika 也有待進步,吃東西、彈琴等物體運動,仍然會出現問題。這些問題,能不能通過抽卡緩解呢?
三個字:抽不起。
Pika 2.0 目前僅對 Pro 和 Fancy 用户開放,如果按月訂閲,每月至少花 35 美元,連免費試用的額度都沒有。
而且,Pro 用户每月只有 2000 積分,但使用 Scene Ingredients 功能,一個視頻就要花掉 100 積分。
▲ vidu 界面
其實,國產 AI 視頻模型 Vidu,比 Pika 更早地實現了「多圖參考」的功能。更拿捏用户的是,它有免費體驗的積分。
Pika 的幾個案例,我也在 Vidu 跑了一下。蒙娜麗莎和戴珍珠耳環的少女吃薯條,兩位像剛出土,但蒙娜麗莎的還原度比 Pika 高。
馬斯克和奧特曼一起看電影,馬斯克的臉像了七八成,奧特曼的臉依舊災難。
坂田銀時和漩渦鳴人同框,Vidu 居然能基于正臉生成側臉,但畫風和原圖不太一樣。
另外,在功能上,Vidu 有一點不如 Pika ——最多只能上傳三張圖片。所以,讓 Vidu 給馬斯克和奧特曼拍時尚大片,我就沒有上傳背景,只上傳了兩位的照片和綠色的大衣。
兩位給人的感覺很陌生。可以看出,人臉的穩定性,仍然是個難題。
和 Pika 相比,Vidu 效果如何,可以見仁見智。Pika 用的是 Pro 版,Vidu 用的是免費版,客觀上也會導致兩者的差異。
但 Pika 和 Vidu 的思路是相似的——僅靠幾個圖片素材、一段簡單的提示詞,就生成相對穩定的物體。
在 AI 視頻生成中,保持主體一致性,目前相對可靠的是 LoRA 方案,用一定數量的、特定主體的素材,對模型進行微調。通過适量的素材和訓練,模型能逐漸掌握這個角色的樣貌特征。
但為了讓 AI 視頻被更多人用起來,有更廣闊的商業價值,門檻就要降低。至少,從 Vidu 和 Pika 身上,我們看到了可能性。
靠 AI 短視頻出圈,在整活的道路上一去不復返
Pika 的 2.0 模型發了沒幾天,海外網友已經玩瘋了。
拿自己的照片,反復生成不同場景的視頻,就可以實現「瞬息全宇宙」。
▲ 圖片來自:X@EladRichardson
通過 AI 一鍵試衣,模特和衣服如流水,場景都不帶換的,實拍的錢省下來了。
▲ 圖片來自:X@martgent
玩着玩着,Pika 給了我一種玩「QQ 秀」和模拟人生的感覺,怎麼打扮視頻裏的角色,我們來決定。
如果讓馬斯克「圓夢」,很容易,先用其他 AI 工具,生成了一件「占領火星」的 T 恤、一個寫着「MAGA」的紅色帽子。
然後,把這些圖片、火星的場景、馬斯克的照片,以及他的擎天柱人形機器人、他特别喜歡的網紅表情包 Doge 原型,全部上傳到 Pika。
▲提示詞:一名男子站在火星表面,身穿黑色 T 恤,頭戴紅色帽子。他的左邊坐着一只狗,右邊站着一個機器人。鏡頭以廣角鏡頭開始,捕捉男子、狗、機器人的全身。随着鏡頭平穩拉近,男子朝鏡頭歡快地揮手,表情洋溢着喜悦和冒險精神
最終,一個陽光開朗大男孩出現,左牽黃,右擎蒼,憨厚有餘,但就是不像馬斯克。
像不像是一回事,只要思路開闊,玩法無窮無盡。
基于我們自己和名人的照片,可以無痛追星。上傳帽子、衣服、樂器,能把自己從頭打扮到腳。集齊場景、產品、模特,一個 5 毛特效的廣告片子就有了 ......
照片 +AI 圖片 +Pika 2.0+ 提示詞,可以生成很多好玩的畫面。同時,這樣的生成方式也規避了一些視頻模型的短板,比如寫字,在圖片模型就可以解決。
不和 Google 硬剛模型能力,不和 Runway 這種逐夢好萊塢的對手比較,Pika 有自己的彎道超車玩法。
其實一直以來,Pika 在整活和創意方面就是一把好手,之前的一系列 AI 特效功能 Pikaffect 全網爆火,刷屏小紅書和 TikTok,推動 Pika 用户突破 1100 萬。
▲ AI 捏捏 . 圖片來自:Pika
▲ AI 切蛋糕 . 圖片來自:Pika
Pika 切中了一群對整活短視頻有高需求的用户,哪怕這些視頻是模板化的,稍縱即逝的,但只要有趣,人們就會蜂擁而至。
誰説赢者通吃才是勝利?AI 的市場是廣闊的,模拟物理世界固然是個遠大的夢想,先完成讓 AI 短視頻有趣起來的小目标,未嘗不是一種成功的方式。