今天小編分享的科學經驗:Pika放大招:今天起,視頻和音效可以“一鍋出”了!,歡迎閱讀。
就在剛剛,Pika發布了一項新功能:
很抱歉我們之前一直處于靜音狀态。
今天起,大家可以給視頻無縫生成音效了——Sound Effects!
生成的方式有兩種:
要麼給一句 Prompt,描述你想要的聲音;
要麼直接讓 Pika 根據視頻内容自動生成。
并且 Pika 非常自信地說到:" 如果你覺得音效聽起來很棒,那是因為它确實如此 "。
話不多說,我們直接來聽一下。
車鳴聲、廣播聲、鷹叫聲、刀劍聲、歡呼聲……可謂是聲聲不息,并且從效果上來看,也是高度與視頻畫面匹配。
不僅是發布的宣傳片,Pika 官網現在也放出了多個 demo。
例如無需任何 prompt,AI 只是看了眼烤培根的視頻,便可以配出毫無違和感的音效:
再如給一句 prompt:
Super saturated color, fireworks over a field at sunset.
超飽和色彩,日落時田野上的煙火。
Pika 便可以在生成視頻的同時配上聲音,從效果中不難看出,煙花綻放的瞬間,聲音卡點也是相當的精準:
大周末的發布這樣一個新功能,網友們在高呼 Pika" 夠卷、夠 Awesome"的同時,也有人認為:
它正在為多模态 AI 創作收集所有的 " 無限寶石 "。
那麼 Pika 的 Sound Effects 具體要如何操作,我們繼續往下看。
給視頻 "make some noise"
Pika 給視頻生成音效的操作也是極!其!簡!單!
例如只需一句 prompt,視頻和音效就能" 一鍋出 ":
Mdieval trumpet player.
中世紀小号手。
相比于此前生成視頻的操作,現在只需開啟下方 "Sound effects" 按鈕即可。
讓我們聽一下生成效果:
第二種操作方式,就是在生成了視頻過後,可以單獨給它配音。
例如在下面這個視頻,點擊下方的"Edit",再選擇"Sound Effects":
然後可以描述一下自己想要的聲音,例如:
Race car revving its engine.
賽車正在發動引擎。
然後短短幾秒後,Pika 就可以根據描述和視頻生成音效,而且還是6 種聲音可選的那種!
值得一提的是,Sound Effects 功能目前只對超級合作者(Super Collaborator)和 Pro 用戶開放測試。
不過 Pika 也表示:" 我們很快就會向所有用戶推出該功能!"
然後現在已經有一批網友在開始測試這個 Beta 版本了,并且表示:
音效聽起來和視頻很相配,而且增加了很多氣氛。
再如 " 壁爐裡火焰的聲音 ",是這樣的:
這位網友還用了額外的工具,在 Pika 生成效果的基礎上,還讓視頻裡的人物開口說話:
想要嘗鮮 Pika 新功能的小夥伴,可以蹲一波 Sound Effects 的全面開放了。
什麼原理?
至于 Sound Effects 背後的原理,雖然 Pika 此次并沒有公開,但在此前 Sora 大火之後,語音初創公司ElevenLabs就出過類似的配音功能。
當時,英偉達高級科學家Jim Fan就對此做過較為深入的分析。
他認為,AI 學習準确的視頻到音頻映射還需要對潛在空間中的一些 " 隐式 " 物理進行建模。
他詳細說明了端到端 Transformer 在模拟聲波時需要解決的問題:
識别每個物體的類别、材料和空間位置。
識别物體間的高階互動:例如,是木棍、金屬或是鼓面?以什麼速度擊打?
識别環境:是餐廳、空間站、還是黃石公園?
從模型的内部記憶中檢索物體和環境的典型聲音模式。
使用 " 軟性 " 的、通過學習得到的物理規則來組合和調整聲音模式的參數,甚至即時創造全新的聲音。這有點像遊戲引擎中的 " 程式化音頻 "。
如果場景很復雜,模型需要根據物體的空間位置疊加多個聲音軌道。
所有這些都不是顯式的模塊,而是通過大量的(視頻,音頻)對的梯度下降學習來實現的,這些視頻和音頻對在大多數互聯網視頻中自然地時間對齊。注意力層将在它們的權重中實現這些算法,以滿足擴散目标。
除此之外,Jim Fan 當時表示英偉達的相關工作并沒有這樣高質量的 AI 音頻引擎,不過他推薦了一篇 MIT 五年前的論文The Sound of Pixels:
感興趣的小夥伴可以戳文末鏈接詳細了解一下。
One More Thing
在多模态這件事上,LeCun在最新訪談中的觀點也很火爆,他認為:
語言(文本)是低寬帶的:小于 12 字節 / 秒。現代 LLM 通常使用 1x10^13 個雙字節标記(即 2x10^13 字節)進行訓練。一個人閱讀大約需要 100000 年(每天 12 小時)。
視覺的帶寬要高得多:約 20MB/s。兩條視神經中的每一條都有 100 萬根神經纖維,每根神經纖維每秒攜帶約 10 個字節。一個 4 歲的孩子在清醒狀态下大約是 16000 小時,換算成字節大約是 1x10^15。
視覺感知的數據帶寬大約是文本語言數據帶寬的 1600 萬倍。
一個 4 歲孩子看到的數據,是互聯網上公開的所有文本訓練的最大 LLM 數據的 50 倍。
因此,LeCun 總結到:
如果不讓機器從高帶寬的感官輸入(如視覺)中學習,我們絕對不可能達到人類水平的人工智能。
那麼,你贊成這種觀點嗎?
參考鏈接:
[ 1 ] https://twitter.com/pika_labs/status/1766554610188095642
[ 2 ] https://www.youtube.com/watch?v=WirmtLi47q4
[ 3 ] https://pika.art/home
[ 4 ] https://www.youtube.com/watch?v=5t1vTLU7s40
[ 5 ] https://twitter.com/DrJimFan/status/1759287778268025177
[ 6 ] http://sound-of-pixels.csail.mit.edu/