今天小编分享的科学经验:克苏鲁高清AI视频爆火,背后模型已开源,Demo在线可玩,前特斯拉AI总监也来围观,欢迎阅读。
可生成1024 × 576高清分辨率视频的大模型,开源了!
无论是在海草间游动的小鱼:
还是精细到眼珠子的神秘克苏鲁影像:
全部以前所未有的清晰感呈现出来,让网友直呼 "san 值狂掉 "。
这个视频生成模型开源即爆火,不仅在推特和 Reddit 上收获一众热度,就连前特斯拉 AI 总监Andrej Karpathy 也来围观了一波:
现在,Hugging Face 工程师已经搞出了试玩 demo,不少网友直接线上开炫,例如生成《星球大战》达斯 · 维德在水上冲浪的珍贵影像:
效果看起来也不错,所以它究竟是怎么训练的?
基于 17 亿参数大模型改造
Zeroscope 的 " 原型 ",是达摩院 ModelScope(魔搭)社区开源的 17 亿参数文生视频大模型。
这一版大模型由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间 3 个子网络组成。
其中,扩散模型采用 Unet3D 结构,通过从纯高斯噪声视频中迭代去噪过程,最终实现视频生成。
不过在 ModelScope 社区中开源的这版大模型,生成视频的效果还不能说是高清:
为此,ZeroScope 设计了两个阶段,先通过文生视频、再通过视频生视频提升分辨率,最终生成 1024 × 576 分辨率的视频:
第一步,文生视频,基于 ZeroScope_v2_576w 来生成 576 × 320 分辨率的视频;
第二步,视频生视频,基于 ZeroScope_v2_XL 来生成 1024 × 576 分辨率的视频片段。
训练上,ZeroScope 采用了 9923 个 1024 × 576 分辨率的视频片段,每个片段包含 24 帧画面,其中有 3 帧被打上标记,加起来一个是 29769 个标记帧(tagged frames)。
不过,生成高清视频,需要的硬體要求也会更高一些。
要想生成 576 × 320 分辨率、帧率 30 的视频,至少需要 7.9GB 的 VRam(显存的一种);如果要生成 1024 × 576 分辨率、帧率 30 的视频,则至少需要 15.3GB 的 VRam。
有网友感到高兴:
又一个足以与 Gen-2 竞争的文生视频模型出现了!
甚至有网友认为,这个模型的出现已经说明,人们没必要为了 Runway 搞出来的 Gen-2 付钱了,毕竟后者效果也没有那么好。
无论如何,文生视频 AI 领網域的 " 新搅局者 " 都已经出现。
在线试玩 Demo 已出
模型一开源,Hugging Face 上就已经出现了试玩 Demo。
这里我们试着生成 " 和爱因斯坦打高尔夫球 "。
效果还不错,虽然不知道为什么爱因斯坦打着打着蹲下了(手动狗头)
从提示词类型来看,不仅可以输入比较精细的描述:
例如 " 一个男人在行驶的火车上睡觉,窗外物体飞速移动 "(A man is sleeping in his seat, inside a train running, background behind the window is moving fast)
也可以只输入简单的一句话,像是 " 巨型皮卡丘大战哥斯拉 "(Giant Pikachu versus Godzilla fight)
除此之外,也有不少网友分享了自己的作品。
例如这是 " 爱因斯坦大笑着开星球大战里的飞梭赛车 ":
还有网友 @Callimiya 生成了 " 达斯维德在课室跳舞 " 的神奇视频,似乎还有小孩子在陪他一起跳:
不过,由于试玩人数比较多,导致它有时会出 bug。这时候只要不停地提交,还是可以冲进队列中的。
当然,如果你觉得这一版的 Demo 可控性不够好,还可以尝试另一版,无论是seed (便于生成相似内容)还是推理次数都可手动调整:
怎么样,想好用它生成什么新视频了吗?
简单版试玩:
https://huggingface.co/spaces/fffiloni/zeroscope
可控版进阶试玩:
https://huggingface.co/spaces/hysts/zeroscope-v2
参考链接:
[ 1 ] https://twitter.com/_akhaliq/status/1672650155743408133
[ 2 ] https://www.reddit.com/r/aivideo/comments/14hbiql/announcing_zeroscope_v2_xl_a_new_1024x576_video/
[ 3 ] https://twitter.com/fffiloni/status/1673644193967747072