PIKA正式上線唇形同步 - 給AI視頻注入新的"想象"

今天小編分享的科技經驗：PIKA正式上線唇形同步 - 給AI視頻注入新的"想象"，歡迎閱讀。

本來又準備睡了 ... 但是好死不死的，睡前又看了一眼幾家 AI 產品的更新動态 ...

然後 ...

PIKA 在沉寂了 3 個月後，終于又更新了 ...

沒有去卷模型，沒有去卷控制，而是繼續奔赴他們 1.0 最開始所設定的目标：

對話。

PIKA 的模型，有一個跟所有的其他 AI 視頻產品都不同的地方在于。

當你生成人物的時候，大概率會說話，也就是唇形會動起來，模拟人物正在對話的感覺。

PIKA 認為，這樣的效果，才能更符合真正的 " 短片 " 效果，畢竟，一個短片，想要好看，人與人之間的對話那是必不可少的。

對話才有戲，衝突才有張力。

而如果是傳統的 Runway 等等，做的鏡頭，都是空鏡，對話很多時候都只能以旁白的形式去做。那樣，觀眾在看片子的時候，沉浸感會大幅降低。

但是去年 PIKA1.0 上線的時候，其實是并沒有跟語音打通的，意思是說，你只能跑出一個正在瞎特麼動的嘴，但是沒有聲音。

聲音你需要自己去 11Labs 或者魔音工坊裡面跑。然後用剪映啥的，把你跑的語音和 AI 片段拼起來。

但是這就有一個問題是：唇形和發音，是不匹配的。

所以 PIKA 做唇形同步，是絕對的情理之中，他們一定會做，且必做。

這不，就來了。先看一眼 PIKA 的新預告片吧。

不過 PIKA 的預告片 ... 你懂的。

還是得自己親自上手試一下。

正好這個唇形同步，也對超級合作者開放了，于是，我就來測一下。

進入 PIKA 首頁，傳一段視頻或者傳一張圖片後，你就能看到這麼一個功能：

這個就是唇形驅動。

點開以後，就能看到語音制作區網域。

PIKA 也跟 11Labs 合作了，把 11Labs 的 TTS 給拿了過來，上面的區網域就可以選擇特定的發音人，然後輸入文字，變成語音。

當然，你也可以上傳你自己的音頻。

我還是習慣自己用 11Labs 或者魔音工坊跑音頻出來，畢竟那兩個玩意的可用性高一點。

傳上去以後，就可以開始合成了。

我大概跑了幾十個 case，從 1/2 正面，測到 1/5 正面，從正臉測到側臉，從寫實跑到 2D，從圖片跑到視頻 ... 也算了測了個遍

先看幾個我覺得效果還不錯的例子：

但是還有很多，是 Bad case。

整體上我實驗下來，我更建議是先用文 / 圖生成視頻後，用視頻再去進行唇形同步，而不是直接用圖進行唇形同步。

因為兩者效果大差不差，而用視頻驅動的話，還能實現一些大運鏡或者變動的背景。

PIKA 上唇形同步，想象力一定是非常強的，因為不管是 Heygen 或者奇妙元，能做的都是靜态的照片說話，在效果上，有一定的局限性，因為背景不會動。

比如很久之前我用奇妙元弄的這個特朗普。

而 PIKA 自身的 AI 視頻再加上唇形同步，會做出一些以前實現起來非常復雜但是很有戲的效果，能給 AI 視頻，帶來一些新的想象力。

但是在唇形同步的效果上，坦率的講，跟 Heygen 和奇妙元相比，還有一定的距離要走。

比如只支持正臉，側臉一些就會崩。

比如面部有一些遮擋物的時候，就識别出錯。

比如有一些背景人臉的時候，會一起識别出來。

比如唇部經常在抖不夠穩定。

比如有時候唇部會糊。

等等。

但是畢竟 PIKA 這次的更新，還是 Test 版本，還沒有向大眾公開。

還有非常大的優化空間。

想想 MJ 的 V1 時刻，對吧。

我很期待 PIKA 後續在唇形同步上的優化，給 AI 視頻，注入一些新的活力。

不過，我怎麼有一種感覺。

11Labs，這個做 AI 配音的，反而是最大的赢家呢。。。