今天小編分享的科技經驗:到處都能刷到的 AI 視頻,真沒你想的那麼簡單。,歡迎閲讀。
" 疑似使用了AI 生成技術,請謹慎甄别 "
大家有沒有發現,這行小字有點像 " 廣告僅供參考 , 請以實物為準 " ,已經幾乎在生活中越來越常見了。
特别是現在的短視頻平台。
刷到個小貓視頻,口型是 AI 合成的。
内容來自抖音用户 @墩墩吃不飽
刷個西遊記,也能看到 AI 妖精真身。
甚至看一個卡通片,畫面還總是 AI 合成的。
AI 視頻越來越多了。
雖然掀起 AI 視頻浪潮的 Sora 還在難產,但 AI 視頻時代或許已經悄然而至。
東吳證券的一份研報裏就預測,中國 AI 視頻生成的潛在行業空間,可能擁有超過 5800 億元的市場。
但随着市場不斷火熱,行業的一些問題也逐漸暴露到公眾視野:
視頻化和 AI 确實都是未來,但像是成本問題、質量問題、協同問題和性能問題,都萦繞在所有初創企業,大廠們的心頭。
就拿成本問題和質量問題為例。
大家都知道,目前的生成式大模型特别是視頻,就是一個力大飛磚的過程,需要用海量數據進行訓練。
而超大規模視頻訓練數據,又會對計算和處理數據、以及數據本身有着天量需求,随之而來的成本增加是一個天文數字。
GPT-4o 作為一個老款 AI ,開發成本 " 僅 " 為 1 億美元,訓練成本大概在 7800 萬美元左右。
而視頻模型的訓練成本就更高了,以年初推出的視頻模型 Sora 為例,其訓練和推理所需的算力需求,分别就達到了GPT-4 的 4.5 倍和近 400 倍。。。
除了天價訓練成本外,大模型訓練樣本質量、處理鏈路復雜,涉及多個環節,需要多團隊協作;自研 / 第三方, GPU 、 CPU 、 ARM 等多種異構算力資源,又需要靈活調度部署。。。
所以,對不少準備擁抱 AI 視頻的公司們來説,當務之急就是想盡辦法,解決這些問題,才能更快地進化。
要論玩視頻的高手,抖音和火山引擎可就有話説了。
上個月底字節推出的爆火的 PixelDance ,效果那是杠杠的。
我們當時還寫了篇文章專門給大家唠了遍,就看我們簡單試用生成的視頻效果,就知道還真有點東西喔。
而在 15 号結束的火山引擎視頻雲技術大會上,開場用了定制數字人譚待來和大家溝通。
結果效果好到,現場參會者們,不少都以為這是視頻摳圖。
而這些高質量 AI 產出背後,其實離不開一個叫 BMF 的智能框架。
火山引擎通過和自家大模型團隊在内部合作,一起把海量的視頻數據進行預處理。
最後基于火山引擎音視頻處理平台和 BMF 框架,在短時間内生產了足夠多高質量的視頻素材,用于模型的訓練,才有了 PixelDance 。
功臣之一的 BMF ,為什麼能夠做到這些呢?
我們用個生活中常見的例子來解釋:
一個公司開發大模型就好比你家做年夜飯。
為了吃上一頓豐盛的年夜飯,你爸爸負責買菜、媽媽燒飯、奶奶包餃子、你搬桌椅板凳。。。
所有人都得有分工,從頭忙到尾,可能還得時不時打個電話發個微信互幫互助,最後一算,好家夥,原來吃頓年夜飯還得花這麼多錢。
而 BMF 就是火山引擎推出的一個 " 年夜飯一鍵全流程套餐 " ,它提供了一系列的工具和服務,幫你輕松、快捷地準備好年夜飯。
這個套餐重點針對性地解決了我們前面説到的 4 個行業痛點,進行了相應的調整。
比如為了解決視頻訓練數據質量問題,他們掏出了多種算法對視頻進行多維度的分析和篩選,做到了充分精細化的過濾;
應對性能難題,他們又利用 BMF 框架的靈活調度,提前調配好了性能。
這就相當于準備年夜飯一早就做好了攻略,買菜交給了多多買菜送貨上門、燒飯找了五星級大廚專門掌勺、桌椅板凳安排了專門的小工打雜。。。
反正就是用了 BMF 這套框架,又便捷又省心又省錢。
搞定了企業這邊的需求,火山引擎也沒忘了大家夥。
如今,大家設備的算力不斷上漲,與之而來的就是對視頻畫質提升的強烈需求。
火山引擎通過得天獨厚的優勢,每天在抖音 / 西瓜等 app ,面對上億用户,處理海量視頻圖片。
獲得了這麼豐富的經驗之後,火山引擎在 BMF 基礎上,沉澱出了一個更适合普通用户體質的 "BMF lite" ,實現了更輕量、更高效、更通用的進化。
比如相較于雲端,在用户端側,對于功耗,内存非常敏感,而場景又涉及 Android 、 ios 、 PC 等多平台。
于是 BMF-Lite 就重點建設基于跨平台,資源復用的算法包的框架設計。
簡單説就是統一了各個平台的接口形式,方便集成部署。
再用算法控制器來復用相同的算法實例,在抖音播放場景,點播跟直播播放大部分都是只會生效一個,可以最大程度地復用資源。
而除了 BMF 為代表的智能框架,火山引擎還提出了智能算力和智能編解碼。
火山引擎直接在去年掏出了一款自研視頻轉碼芯片,将自研的視頻編解碼技術融入到了裏面。
好處就是,針對視頻點播、直播等特定場景,這款轉碼芯片有着更高的計算密度。
就這麼説吧,一套視頻編解碼芯片伺服器的轉碼能力,相當于上百台 CPU 伺服器。
今天視頻轉碼芯片上線抖音後,通過實踐數據表明,在同等視頻壓縮效率下,成本能節省 95% 以上。
而針對編解碼層,火山引擎推出了基于自研視頻轉碼芯片構建的 "BVE1.2 編碼器 " 。
這個編碼器大膽融合了深度學習技術,推出了革命性的智能混合編解碼解決方案,将傳統壓縮技術與深度學習壓縮技術有機融合成為一個整體,極大地提升了編解碼的效率,提升了編碼性能。
在前不久結束的的第六屆深度學習影像壓縮挑戰賽( CLIC 大賽 )中, "BVE1.2 編碼器 " 拿到兩個冠軍足以説明實力。
這一套小組合拳下來,感覺有興趣的廠商們,估計滿腦子都是 " 付款碼掃哪兒 " ?
你還别説,火山引擎也的确沒打算藏着掖着。
像前面説的 BMF 框架,早在去年就已經開源了,更新完的 BMF lite ,也是直接開源。
總的來説,目前,大模型的進化還在持續,視頻 AI 公司之間的競争也只會日益激烈。
但如果大家只是閉門造車,互相拿成果比拼,用產品説話,可能會顯得競争有餘、合作不足。
而作為可能是全中國短視頻玩得最熟練的字節跳動,他們旗下的火山引擎一次次地将内部技術、框架開源。
特别帶來的 BMF 框架以及它和智能算力和智能編解碼組成的一整套智能底座,的确能夠幫助企業們節約了大量時間和成本,更好地幫助 AI 項目落地發展。
這種競争和合作共存的态度,才是中國 AI 最樂意見到的場面。
一枝獨秀難成林,萬紫千紅才是春。
撰文:八戒