大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

国产AI可以拍微电影了!4K、60帧高清画质,自带音效

2024-11-09 简体 HK SG TW

今天小编分享的科学经验:国产AI可以拍微电影了!4K、60帧高清画质,自带音效,欢迎阅读。

国产 AI,正式把视频生成拉进了有声电影时代。

自从 Sora 引爆视频生成之后,基本上所有 AI 生成的视频都属于" 默片 "的效果,也就是没有对应的音效(注意不是配乐)。

但现在,音效是可以直接自带了!而且还是4K、60 帧高清画质的那种。

那么 AI 视频生成现在能到什么水平?

我们直接拿这个国产 AI 做了个微电影,请看 VCR:

如何?是不是已经有电影的那个 feel 了?

这个国产 AI,正是智谱刚更新的新清影,总体来看有三大特点:

电影级效果:除了刚才提到的 4K、60 帧高清之外,还支持 10 秒时长和任意比例视频。

模型能力全面提升:背后的 CogVideoX 模型更懂复杂 prompt,能够保持人物等主体的连贯性,效果更逼真。

自带音效:引入 CogSound 模型,能够自动根据视频内容生成匹配的音效,这个月将正式上线清言 APP。

如此一来,AI 已经具备了制作像上面这样微电影(或短视频)的全要素,而且在操作上也是非常简单。

我们先把一个主题 " 喂给 " 智谱清言的GLM 4 Plus,让它帮我们生成微电影的脚本:

然后我们再用文生图的 AI,生成几张高清大图,以开头片段为例,Prompt 是这样的:

镜头从公园的鸟鸣和晨光中缓缓推进,聚焦在一位满头白发的老太太身上。她坐在长椅上,手中拿着一本书,眼神宁静而深远。

再进入新清影的图生视频界面,把这张影像传上去,并填写想要效果的 prompt:

镜头从公园的鸟鸣和晨光中缓缓推进,聚焦在一位满头白发的老太太身上。她坐在长椅上,缓缓把书合上,望向远方陷入深思。

接着在下方面选择基础参数即可:

在静候片刻之后,一段电影级别、自带音效的高清视频片段就这么水灵灵的诞生了。

重复上面的方法,我们便可以得到后边的那些视频片段。

至于旁白部分,采用的则是智谱在前不久刚发布的GLM-4-Voice 情感语音模型,可以做到宛如真人配音。

嗯,打得就是一套智谱的 AI 组合拳。

而联想人类从第一部无声电影(1895 年)到第一部有声电影(1927 年),足足花费了32 年。

若是从 Sora 算起,那么 AI 生成的视频从无声到有声,耗时仅仅9 个月。

此时此刻," 人间一天,AI 一年 "这句话,是真真儿的具象化了。

随意一段视频,秒出有声电影片段

那么智谱的 CogSound 模型还能 hold 住什么样的音效?

我们这就来一波实测。

实测方法也是非常简单,我们会截取电影中的视频片段作为输入,考验的就是它能否对视频内容深入理解,并生成没有违和感的音效。

Round 1:自然环境

我们先取一段雨天傍晚房间里的一个视频,把它 " 喂 " 给 CogSound 模型(注:以下原视频都是无声的),生成出来的音效是这样的:

CogSound 精准地 get 到了 " 下雨 " 这个关键元素,从音效上来看也是毫无违和感。

再来欣赏一段由清影生成、CogSound 加音效的视频片段:

Round 2:动物世界

我们再来试试 CogSound 能否看视频识别出动物的声音:

CogSound 不仅生成出了狮子妈妈低沉的叫声,也发觉到了它们处于自然环境之下,还配上了鸟鸣的声音。

Round 3:多种乐器

接下来,我们上个难度,输入一段有多个乐器演奏的视频频段:

可以看到,从视频一开始的画面来看,萨克斯这个乐器应当是 " 主角 ",所以在乐器混合的音效中,萨克斯的声音是最大的。

而当萨克斯手用力吹奏的时候,CogSound 配的音效竟也有了音乐上的起伏,说实话,这一点确实是有点令人意外。

但要非挑个问题的话,或许镜头在转向钢琴的时候,乐器的音效上,钢琴声音变大一些会更好些。

Round 4:科幻电影

最后,我们再 " 喂 " 一个超级复杂的视频片段——《流浪地球》:

讲真,若不是知道这是 CogSound 生成的,很多人应该都会认为它是电影原声了吧。

由此可见,不论 " 喂 " 给 CogSound 模型什么类型的视频,它都可以做到对视频内容的精准理解,并且给出对应音效。

除此之外,在视频本身生成的能力上,智谱的CogVideo也有了大幅的提升。

例如生成的下面这位老爷爷,情绪和表情的变化,宛如在看一个电影片段:

还有像非常科幻的火焰老虎:

而从上面两个例子中,我们也不难发现,CogVideoX 现在是可以支持多种比例视频的生成。

那么接下来的问题就是:

怎么做到的?

首先是 CogVideo 的更新,主要集中体现在了内容连贯性、可控性和训练效率等方面的能力提升。

其整体的模型框架如下图所示,是基于多个专家 Transformer 模块,通过文本编码器将输入的文本转化为潜在向量,再经由 3D 卷积和多层专家模块处理,生成连续的视频序列。

整个过程可视为将自然语言描述转化为动态视觉内容的复杂系统。

在模型架构设计中,CogVideoX 特别采用了因果 3D 卷积(Causal 3D Convolution),以高效捕捉时空维度上的复杂变化,使得模型能够更加精确地理解和生成富有细节的场景。

同时,该模型引入了专家自适应层归一化(AdaLN),通过动态调整不同模块的特性,从而在视觉表现上实现更自然、更具连贯性的视频生成。

为了应对视频压缩与计算效率的挑战,CogVideoX 采用了3D VAE结构,通过对视频特征在空间和时间上的下采样,大幅降低了视频存储与计算开销。

这意味着即便在资源有限的计算环境下,CogVideoX 仍能生成高质量的视频内容,显著提升了其应用的可行性。

如果说 CogVideoX 负责生成可视的动态内容,那么 CogSound 则赋予这些画面以听觉上的生命。

CogSound 是一种为无声视频自动生成音效的模型,能够基于视频内容智能合成背景音乐、对话音频及环境音效,其架构如下图所示:

CogSound 的核心技术依托于GLM-4V 的多模态理解能力,能够精确解析视频中的语义和情感,并生成匹配的音效。

例如,在展示森林景观的视频中,CogSound 能够生成鸟鸣和风吹树叶的声音;而在城市街景中,则会生成车流与人群的背景噪音。

为实现这一目标,CogSound 利用了潜空间扩散模型(Latent Diffusion Model),通过将音频特征从高维空间进行压缩并再扩展,从而有效地生成复杂音效。

此外,CogSound 通过块级时间对齐交叉注意力(Block-wise Temporal Alignment Cross-attention)机制,确保生成的音频在时间维度和语义上与视频内容高度一致,避免了传统音画合成中常见的错位和不协调问题。

这便是智谱 CogVideoX 能力提升和 CogSound 背后的技术秘笈了。

短视频迈入了 AI 时代

多模态是通往 AGI 的必经之路。

这是智谱在很早之前便提出的一个认知,而随着此次 CogSound 的发布,其多模态的矩阵可谓是再添一块拼图。

而它的多模态之路,可以追溯到 2021 年,具体到细节领網域分别是:

文本生成(GLM)、影像生成(CogView)、视频生成(CogVideoX)、音效生成(CogSound)、音乐生成(CogMusic)、端对端语音(GLM-4-Voice)、自主代理(AutoGLM)。

若问这一步步走来,对现在的技术和行业带来了哪些改变,答案或许是——

起码在短视频制作领網域,是时候可以迈入 AI 时代了。

首先就是更高质量、更符合物理世界规则的生成视频,在内容逻辑和视觉上基本上可以够到短视频制作的门槛。

加之 CogVideoX 还支持非常多的尺寸,更符合用户在各种场景下的制作需求。

而最为关键的一点,随着 CogSound 把视频生成拉进 " 有声电影 " 时代,使得输出的结果不仅满足了视觉的要求,更是符合了真实物理世界中的听觉要求。

正如智谱所言:

真正的智能一定是多模态的,听觉、视觉、触觉等共同参与了人腦认知能力的形成。

据悉,CogSound 即将在智谱清言上线,而且智谱还将发布音乐模型 CogMusic。

加之此前已经发布的 GLM-4-Voice 人声模型,智谱可以说是把视频生成中的 " 音 " 这块全面 hold 住。

总而言之,现在做短视频,或许就成了有想法就能实现的事儿了。

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們