今天小编分享的财经经验:OpenAi发布的Sora,送给A股800亿开年红包,欢迎阅读。
图片来源 @视觉中国
文 | 贝克街探案官,作者 | 镇西
没想到今年第一个引爆科技圈的消息,还没等复工就刷了屏,复工后又直接推动相关企业市值爆拉,A 股 25 家相关企业市值共计增长 888.42 亿元,两个交易日平均涨幅 26.94%。
2 月 16 日凌晨,OpenAI 发布首个文生视频模型 Sora,是 OpenAI 继 ChatGPT 之后,推出的另一款具备颠覆行业能力的 AI 应用,Sora 能够仅仅根据提示词,生成 60s 的连贯视频,远超行业目前大概只有平均 "4s" 的视频生成长度。
" 平均 4s" 的长度指代非常明显,就是Runway 和 PIKA。也曾短暂引爆过 A 股文生视频的炒作,但无论是强度还是持续性,都远不如 Sora。
在 Sora 问世之前,Runway 和 PIKA 被视为文生视频领網域的龙头,但在 sora 生产的视频出现后,业界普遍认为 Sora 可以吊打 Runway 和 PIKA。
Pika 创始人郭文景曾在接受采访时表示," 视频现在没有很好的算法,它不是一个规模化的问题,不是说现在大家的 GPU 不够多,很多时候其实是算法上还没有很好的一个思路。" 并认为 Sora 的发布 " 是一个很振奋人心的消息,我们已经在筹备直接冲,将直接对标 Sora。"
和 Runway 和 PIKA 相比,Sora 产出的视频时间更长,连贯性更好,其他模型产出的视频甚至还有卡顿、场景突变等问题;在此基础上,Sora 的视觉细节更丰富,且清晰度更高。对比 Sora 和 runway 的视频不难发现,Sora 的视频内容更符合常人对 " 视频 " 的理解,而 runway 的视频内容更像是 "GIF" 动图。
业内普遍认为,Sora 的出现,预示着一个全新的视觉叙事时代的到来,它能够依据客户的文本提示,将人们的想象力转化为生动的动态画面。Sora 作为一款通用的视觉数据模型,其卓越之处在于能够生成跨越不同持续时间、纵横比和分辨率的视频和影像,甚至包括生成长达一分钟的高清视频。
从成片来看,假以时日,伴随熟练运用 Sora 的工程师、自媒体人越来越多,电影业恐将在此次技术变革中迎来一次大洗牌,毕竟每一部影视作品成片之前都要先有个好剧本,好剧本问世后,用 Sora 就可以实现视频输出了。
但就目前而言,实现这个目标为时尚早,因为整个 Sora 产业链正处于萌芽期,国内目前尚未有一家公司可以与之抗衡,就连字节都直言 "Boximator" 目前还无法作为完善的产品落地,令人略有欣慰的是,已经涌现出大批企业试图搭上 Sora 的快车。
这也不禁让人想起 ChatGPT 发布后,大量企业跟进推出 " 自研大模型 ",并不断呼嚎赶超 OpenAI,结果人家这次直接来个降维,借着推出 Sora 继续 AI 应用市场遥遥领先。
01 Sora 是否难以复制
Sora 采用了 Transformer 架构,和 ChatGPT 不同的是,大语言模型通过 token 将各种形式的文本代码、数学和自然语言统一起来,Sora 则通过视觉包(patchs)实现了类似的效果。
Sora 和 ChatGPT 最大的区别,就是 Sora 为扩散模型,它接受输入的噪声包(以及如文本提示等条件性输入信息),然后被训练去预测原始的 " 干净 " 包。
重要的是,Sora 是一个基于扩散的转换器模型,这种模型已经在多个领網域展现了显著的扩展性,包括语言建模、计算机视觉以及影像生成等领網域。扩散转换器在视频生成领網域同样具有巨大的潜力,不同训练阶段下,使用相同种子和输入的视频样本对比,结果证明了随着训练量的增加,样本质量有着明显的提高。
Sora 研究员专门训练了一个网络,专门负责降低视觉数据的维度。这个网络接收原始视频作为输入,并输出经过压缩的潜在表示。Sora 模型就是在这个压缩后的潜在空间中接受训练,并最终生成视频。此外,研究员还设计了一个解码器模型,它可以将生成的潜在表示重新映射回像素空间,从而生成可视的视频或影像。
当给定一个压缩后的输入视频时,从中提取出一系列的时空包,这些包被用作转换 token。这一方案不仅适用于视频,因为视频本质上就是由连续帧构成的,所以影像也可以看作是单帧的视频。
通过这种基于包的表示方式,Sora 能够跨越不同分辨率、持续时间和纵横比的视频和影像进行训练。在推理阶段,研究员只需在适当大小的网格中安排随机初始化的包,就可以控制生成视频的大小和分辨率。
仅从原理层面来看,推出 Sora 这种文生视频大模型并不难,但国产厂商在推出进度上纷纷落后于 OpenAI,此前曾有消息称字节推出了 Boximator,它可以通过文本精准控制生成视频中人物或物体的动作。
对此,字节跳动相关人士回应称,Boximator 是视频生成领網域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地,距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。
其他发布公告的企业,要么是想要介入这个赛道,要么就是可以为该行业提供硬體设备支持,因为 A 股市场中没有文生视频的企业,所以退而求其次,找到了一家文生图产品获得市场认可的企业炒作,即因赛集团,该公司的 InsightGPT 的文生图功能已在时尚珠宝和快消两个赛道的营销领網域商用,并且具有一定市场认可度。
其他的则是一些算力租赁公司获得市场爆炒,至于想要切入这个行业的公司就更多了,不胜枚举。
02 Sora 商用,会切走谁的蛋糕
Sora 之所以会引起市场轰动,主要是因为其 " 文生视频 " 的功能直接让影视从业人员集体焦虑。
北京天工异彩影视科技有限公司的副总裁兼 CTO 周辉公开表示,Sora 生成的视频质量足够震撼,可以缩短电影拍摄周期。
其实周辉的表达还是保守了,只要 Sora 工程师足够多,硬體设备不受限,整个影视业的演员都可以省了,动辄过亿的演员费用也可以省下,那现在已经成名的影视剧明星,想要上镜就要另谋出路,当然制作方也可以获得已成名演员的授权后上镜。
同时场地租赁、置景等费用也会随之下降,这也给了很多非专业团体在影视业一展身手的机会,换言之,今天是影视业最容易的一天,以后每一天都比今天难上加难,值得注意的是,这一逻辑对视频依赖较大的广告业也通用。
除此之外,国内刚起步的科幻电影可发挥空间也将瞬间提升。之前一直说《三体》影视化不成功,是因为很多场景制作困难,而 Sora 的出现,可以有效解决这个问题,C 内容的专家化也将创造新的风格与形式,增强影视内容的吸引力与丰富度。用人方面,特效师因为具备基础的工作逻辑,培训周期也比其他没有经验的人群更短。
但在 Sora 工程师大规模入局之前,短期 Sora 还是一个工具性产品,某种程度上帮助影视制作方降本增效。
除影视行业外,游戏行业也将借助 Sora 产生巨大变革,Sora 对于物理世界的理解和模拟可以与游戏场景开发高度适配,Sora 可以帮助游戏开发者创立角色或背景故事。OpenAI 也在 Sora 技术报告中提出,Sora 能够模拟如视频游戏的数字化过程,根据官方视频演示,Sora 能在控制《Minecraft》游戏角色进行基本操作的同时,高质量动态渲染游戏世界。
可以预见,Sora 未来将可能被应用生成游戏动画和场景等,增加游戏情感故事背景提高可玩性,游戏开发者的成本也将随之降低。简言之,又会有部分人因此面临岗位变动。
03 学会使用 AI 工具
这种背景下,不会使用 AI 工具的从业者将会伴随科技进步,被时代无情淘汰,而掌握 AI 工具的外行业,跨行也不会再体会 " 翻山越岭 " 般的困苦,当今大量自媒体从业者,也有机会进一步落地自己的创意。
至于卖课教别人怎么使用 AI 工具的机构,谁让人家先掌握知识呢," 知识就是力量 " 已经成为亘古不变的真理,每当科技迭代出现新的生产力工具,都会有相应的课程出现,当年 Word 的使用也是一门技术,路边的打印店甚至招了很多年 " 打字员 ",而如今打字员早已经不是一个职业,而是每个打工人都必须掌握的技能。
假以时日,使用 AI 工具或许也会成为每个打工人必须掌握的技能,但就目前而言,这仍是一个新兴就业岗位,各位也没必要因为科技进步而焦虑,毕竟机遇总是伴随危机出现,机会也是给有准备的人。