今天小編分享的科技經驗:PIKA正式上線唇形同步 - 給AI視頻注入新的"想象",歡迎閱讀。
本來又準備睡了 ... 但是好死不死的,睡前又看了一眼幾家 AI 產品的更新動态 ...
然後 ...
PIKA 在沉寂了 3 個月後,終于又更新了 ...
沒有去卷模型,沒有去卷控制,而是繼續奔赴他們 1.0 最開始所設定的目标:
對話。
PIKA 的模型,有一個跟所有的其他 AI 視頻產品都不同的地方在于。
當你生成人物的時候,大概率會說話,也就是唇形會動起來,模拟人物正在對話的感覺。
PIKA 認為,這樣的效果,才能更符合真正的 " 短片 " 效果,畢竟,一個短片,想要好看,人與人之間的對話那是必不可少的。
對話才有戲,衝突才有張力。
而如果是傳統的 Runway 等等,做的鏡頭,都是空鏡,對話很多時候都只能以旁白的形式去做。那樣,觀眾在看片子的時候,沉浸感會大幅降低。
但是去年 PIKA1.0 上線的時候,其實是并沒有跟語音打通的,意思是說,你只能跑出一個正在瞎特麼動的嘴,但是沒有聲音。
聲音你需要自己去 11Labs 或者魔音工坊裡面跑。然後用剪映啥的,把你跑的語音和 AI 片段拼起來。
但是這就有一個問題是:唇形和發音,是不匹配的。
所以 PIKA 做唇形同步,是絕對的情理之中,他們一定會做,且必做。
這不,就來了。先看一眼 PIKA 的新預告片吧。
>不過 PIKA 的預告片 ... 你懂的。
還是得自己親自上手試一下。
正好這個唇形同步,也對超級合作者開放了,于是,我就來測一下。
進入 PIKA 首頁,傳一段視頻或者傳一張圖片後,你就能看到這麼一個功能:
這個就是唇形驅動。
點開以後,就能看到語音制作區網域。
PIKA 也跟 11Labs 合作了,把 11Labs 的 TTS 給拿了過來,上面的區網域就可以選擇特定的發音人,然後輸入文字,變成語音。
當然,你也可以上傳你自己的音頻。
我還是習慣自己用 11Labs 或者魔音工坊跑音頻出來,畢竟那兩個玩意的可用性高一點。
傳上去以後,就可以開始合成了。
我大概跑了幾十個 case,從 1/2 正面,測到 1/5 正面,從正臉測到側臉,從寫實跑到 2D,從圖片跑到視頻 ... 也算了測了個遍
先看幾個我覺得效果還不錯的例子:
>>但是還有很多,是 Bad case。
整體上我實驗下來,我更建議是先用文 / 圖生成視頻後,用視頻再去進行唇形同步,而不是直接用圖進行唇形同步。
因為兩者效果大差不差,而用視頻驅動的話,還能實現一些大運鏡或者變動的背景。
PIKA 上唇形同步,想象力一定是非常強的,因為不管是 Heygen 或者奇妙元,能做的都是靜态的照片說話,在效果上,有一定的局限性,因為背景不會動。
比如很久之前我用奇妙元弄的這個特朗普。
而 PIKA 自身的 AI 視頻再加上唇形同步,會做出一些以前實現起來非常復雜但是很有戲的效果,能給 AI 視頻,帶來一些新的想象力。
>但是在唇形同步的效果上,坦率的講,跟 Heygen 和奇妙元相比,還有一定的距離要走。
比如只支持正臉,側臉一些就會崩。
比如面部有一些遮擋物的時候,就識别出錯。
比如有一些背景人臉的時候,會一起識别出來。
比如唇部經常在抖不夠穩定。
比如有時候唇部會糊。
等等。
但是畢竟 PIKA 這次的更新,還是 Test 版本,還沒有向大眾公開。
還有非常大的優化空間。
想想 MJ 的 V1 時刻,對吧。
我很期待 PIKA 後續在唇形同步上的優化,給 AI 視頻,注入一些新的活力。
不過,我怎麼有一種感覺。
11Labs,這個做 AI 配音的,反而是最大的赢家呢。。。