今天小編分享的科學經驗:視頻版大爆炸來了!剪輯可精準到每個字,支持中文Demo可玩,老羅:打錢,歡迎閱讀。
現在剪視頻,已經可以精準到每一個字了!
只需點擊你要删減或者要留下的單詞,AI 分分鍾都能給你整出新的視頻來。
這操作,有點大爆炸功能内味了。老羅:打錢!
不管是 MV、訪談、電影片段各種類型視頻,也不論有無字幕,通通不在話下。
網友們紛紛開始試玩了起來。比如讓 rick roll 鬼畜起來 ~
就連中文視頻也能 Hold 住。實測 Demo 發現,它甚至直接翻譯成了英文。
不過這也并不影響整個操作,畢竟背後模型是支持中文在内的多個語言的。
精準到每個字剪視頻
只需三步,就可以輕松完成精準到字的視頻剪輯——
釋出的有三個示例,烹饪的美食視頻、小扎采訪、以及「Just Do IT」……
當然你也可以自己試玩,各種語言都能識别。比如就以讓子彈飛一段經典對白為例。
綠色代表保留,紅色代表删除。你有三種選擇:剪輯、選擇所有單詞、重新設定。
任意選擇保留單詞之後,就可以「Cut Video」了。此處選擇兩處跳脫的台詞。最終只花了不到十秒鍾就完成了剪輯。
畫面切換可以說是十分順滑了 ~ 整個 Demo 試玩在 T4 上運行。
基于 Whisper 模型
這是個荷蘭開發者 Matthijs Hollemans 在 HuggingFace 上基于 Whisper 開發的新功能。
Whisper 是 OpenAI 于去年 9 月開源的語音識别神經網絡,經過 68 萬小時的多語言和多任務監督網絡數據的訓練,其魯棒性和準确性接近人類水平。它可以進行多語言轉錄,以及其他語言将翻譯成英文。
它是基于 Transformer 端到端實現架構,無需任何微調。輸入音頻被抽成 30 秒的塊,轉化為梅爾倒譜(音頻特征提取方式之一,log-Mel spectrogram),然後傳入編碼器。
好了,試玩 Demo 在此,感興趣的旁友可戳:
https://huggingface.co/spaces/radames/whisper-word-level-trim
參考鏈接:
[ 1 ] https://openai.com/research/whisper
[ 2 ] https://twitter.com/mhollemans/status/1671812176842039296