大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

國產AI可以拍微電影了!4K、60幀高清畫質,自帶音效

2024-11-09 简体 HK SG TW

今天小編分享的科學經驗:國產AI可以拍微電影了!4K、60幀高清畫質,自帶音效,歡迎閱讀。

國產 AI,正式把視頻生成拉進了有聲電影時代。

自從 Sora 引爆視頻生成之後,基本上所有 AI 生成的視頻都屬于" 默片 "的效果,也就是沒有對應的音效(注意不是配樂)。

但現在,音效是可以直接自帶了!而且還是4K、60 幀高清畫質的那種。

那麼 AI 視頻生成現在能到什麼水平?

我們直接拿這個國產 AI 做了個微電影,請看 VCR:

如何?是不是已經有電影的那個 feel 了?

這個國產 AI,正是智譜剛更新的新清影,總體來看有三大特點:

電影級效果:除了剛才提到的 4K、60 幀高清之外,還支持 10 秒時長和任意比例視頻。

模型能力全面提升:背後的 CogVideoX 模型更懂復雜 prompt,能夠保持人物等主體的連貫性,效果更逼真。

自帶音效:引入 CogSound 模型,能夠自動根據視頻内容生成匹配的音效,這個月将正式上線清言 APP。

如此一來,AI 已經具備了制作像上面這樣微電影(或短視頻)的全要素,而且在操作上也是非常簡單。

我們先把一個主題 " 喂給 " 智譜清言的GLM 4 Plus,讓它幫我們生成微電影的腳本:

然後我們再用文生圖的 AI,生成幾張高清大圖,以開頭片段為例,Prompt 是這樣的:

鏡頭從公園的鳥鳴和晨光中緩緩推進,聚焦在一位滿頭白發的老太太身上。她坐在長椅上,手中拿着一本書,眼神寧靜而深遠。

再進入新清影的圖生視頻界面,把這張影像傳上去,并填寫想要效果的 prompt:

鏡頭從公園的鳥鳴和晨光中緩緩推進,聚焦在一位滿頭白發的老太太身上。她坐在長椅上,緩緩把書合上,望向遠方陷入深思。

接着在下方面選擇基礎參數即可:

在靜候片刻之後,一段電影級别、自帶音效的高清視頻片段就這麼水靈靈的誕生了。

重復上面的方法,我們便可以得到後邊的那些視頻片段。

至于旁白部分,采用的則是智譜在前不久剛發布的GLM-4-Voice 情感語音模型,可以做到宛如真人配音。

嗯,打得就是一套智譜的 AI 組合拳。

而聯想人類從第一部無聲電影(1895 年)到第一部有聲電影(1927 年),足足花費了32 年。

若是從 Sora 算起,那麼 AI 生成的視頻從無聲到有聲,耗時僅僅9 個月。

此時此刻," 人間一天,AI 一年 "這句話,是真真兒的具象化了。

随意一段視頻,秒出有聲電影片段

那麼智譜的 CogSound 模型還能 hold 住什麼樣的音效?

我們這就來一波實測。

實測方法也是非常簡單,我們會截取電影中的視頻片段作為輸入,考驗的就是它能否對視頻内容深入理解,并生成沒有違和感的音效。

Round 1:自然環境

我們先取一段雨天傍晚房間裡的一個視頻,把它 " 喂 " 給 CogSound 模型(注:以下原視頻都是無聲的),生成出來的音效是這樣的:

CogSound 精準地 get 到了 " 下雨 " 這個關鍵元素,從音效上來看也是毫無違和感。

再來欣賞一段由清影生成、CogSound 加音效的視頻片段:

Round 2:動物世界

我們再來試試 CogSound 能否看視頻識别出動物的聲音:

CogSound 不僅生成出了獅子媽媽低沉的叫聲,也發覺到了它們處于自然環境之下,還配上了鳥鳴的聲音。

Round 3:多種樂器

接下來,我們上個難度,輸入一段有多個樂器演奏的視頻頻段:

可以看到,從視頻一開始的畫面來看,薩克斯這個樂器應當是 " 主角 ",所以在樂器混合的音效中,薩克斯的聲音是最大的。

而當薩克斯手用力吹奏的時候,CogSound 配的音效竟也有了音樂上的起伏,說實話,這一點确實是有點令人意外。

但要非挑個問題的話,或許鏡頭在轉向鋼琴的時候,樂器的音效上,鋼琴聲音變大一些會更好些。

Round 4:科幻電影

最後,我們再 " 喂 " 一個超級復雜的視頻片段——《流浪地球》:

講真,若不是知道這是 CogSound 生成的,很多人應該都會認為它是電影原聲了吧。

由此可見,不論 " 喂 " 給 CogSound 模型什麼類型的視頻,它都可以做到對視頻内容的精準理解,并且給出對應音效。

除此之外,在視頻本身生成的能力上,智譜的CogVideo也有了大幅的提升。

例如生成的下面這位老爺爺,情緒和表情的變化,宛如在看一個電影片段:

還有像非常科幻的火焰老虎:

而從上面兩個例子中,我們也不難發現,CogVideoX 現在是可以支持多種比例視頻的生成。

那麼接下來的問題就是:

怎麼做到的?

首先是 CogVideo 的更新,主要集中體現在了内容連貫性、可控性和訓練效率等方面的能力提升。

其整體的模型框架如下圖所示,是基于多個專家 Transformer 模塊,通過文本編碼器将輸入的文本轉化為潛在向量,再經由 3D 卷積和多層專家模塊處理,生成連續的視頻序列。

整個過程可視為将自然語言描述轉化為動态視覺内容的復雜系統。

在模型架構設計中,CogVideoX 特别采用了因果 3D 卷積(Causal 3D Convolution),以高效捕捉時空維度上的復雜變化,使得模型能夠更加精确地理解和生成富有細節的場景。

同時,該模型引入了專家自适應層歸一化(AdaLN),通過動态調整不同模塊的特性,從而在視覺表現上實現更自然、更具連貫性的視頻生成。

為了應對視頻壓縮與計算效率的挑戰,CogVideoX 采用了3D VAE結構,通過對視頻特征在空間和時間上的下采樣,大幅降低了視頻存儲與計算開銷。

這意味着即便在資源有限的計算環境下,CogVideoX 仍能生成高質量的視頻内容,顯著提升了其應用的可行性。

如果說 CogVideoX 負責生成可視的動态内容,那麼 CogSound 則賦予這些畫面以聽覺上的生命。

CogSound 是一種為無聲視頻自動生成音效的模型,能夠基于視頻内容智能合成背景音樂、對話音頻及環境音效,其架構如下圖所示:

CogSound 的核心技術依托于GLM-4V 的多模态理解能力,能夠精确解析視頻中的語義和情感,并生成匹配的音效。

例如,在展示森林景觀的視頻中,CogSound 能夠生成鳥鳴和風吹樹葉的聲音;而在城市街景中,則會生成車流與人群的背景噪音。

為實現這一目标,CogSound 利用了潛空間擴散模型(Latent Diffusion Model),通過将音頻特征從高維空間進行壓縮并再擴展,從而有效地生成復雜音效。

此外,CogSound 通過塊級時間對齊交叉注意力(Block-wise Temporal Alignment Cross-attention)機制,确保生成的音頻在時間維度和語義上與視頻内容高度一致,避免了傳統音畫合成中常見的錯位和不協調問題。

這便是智譜 CogVideoX 能力提升和 CogSound 背後的技術秘笈了。

短視頻邁入了 AI 時代

多模态是通往 AGI 的必經之路。

這是智譜在很早之前便提出的一個認知,而随着此次 CogSound 的發布,其多模态的矩陣可謂是再添一塊拼圖。

而它的多模态之路,可以追溯到 2021 年,具體到細節領網域分别是:

文本生成(GLM)、影像生成(CogView)、視頻生成(CogVideoX)、音效生成(CogSound)、音樂生成(CogMusic)、端對端語音(GLM-4-Voice)、自主代理(AutoGLM)。

若問這一步步走來,對現在的技術和行業帶來了哪些改變,答案或許是——

起碼在短視頻制作領網域,是時候可以邁入 AI 時代了。

首先就是更高質量、更符合物理世界規則的生成視頻,在内容邏輯和視覺上基本上可以夠到短視頻制作的門檻。

加之 CogVideoX 還支持非常多的尺寸,更符合用戶在各種場景下的制作需求。

而最為關鍵的一點,随着 CogSound 把視頻生成拉進 " 有聲電影 " 時代,使得輸出的結果不僅滿足了視覺的要求,更是符合了真實物理世界中的聽覺要求。

正如智譜所言:

真正的智能一定是多模态的,聽覺、視覺、觸覺等共同參與了人腦認知能力的形成。

據悉,CogSound 即将在智譜清言上線,而且智譜還将發布音樂模型 CogMusic。

加之此前已經發布的 GLM-4-Voice 人聲模型,智譜可以說是把視頻生成中的 " 音 " 這塊全面 hold 住。

總而言之,現在做短視頻,或許就成了有想法就能實現的事兒了。

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們