今天小编分享的科技经验:OpenAI新年开出王炸,AI竞争更新,欢迎阅读。
OPEN AI 又刷屏了。
2023 年年初,OPEN AI 就曾引爆全球科技圈。
因为其发布了一个全新的聊天机器人模型—— ChatGPT。和过去那些简单的聊天机器人相比,ChatGPT 不仅可以回答人类的追问,承认自己回答中的错误,拒绝回答不适当的问题,还能写诗、编程、写论文等等。
连马斯克都忍不住感叹:"ChatGPT 好得吓人,我们离强大到危险的人工智能不远了。" 距离发布后仅两个月,ChatGPT 月活用户就达到了 1 亿,为其母公司 OpenAI 拉来了微软 100 亿美元的下注。
2024 年年初,相似的故事又在上演。
2 月 16 日凌晨,OpenAI 在 AI 生成视频领網域扔出一枚 " 王炸 ",宣布推出全新的生成式人工智能模型 "Sora"。
在 OpenAI 官网分享的演示视频中,Sora 可以直接输出有多个角色、多种场景和运镜的画面。这对比一年前 AI 生成的视频,简直是天差地别,其视频长度方面就 " 碾压 " 同行。
据了解,通过文本指令,Sora 可以直接输出长达 60 秒的视频,且视频的精致程度远超大部分人的想象。
这意味着,继文本、影像之后,OpenAI 将其先进的 AI 技术拓展到了视频领網域。
马斯克也再次评价了 OpenAI 视频模型:"AI 增强的人类将在未来几年里创造出最好的作品。"
Sora 让人惊艳的到底是什么?
一方面是技术上的突破。
Sora 能够生成长达 1 分钟的超长视频,远超 Runway-gen2 的 18 秒和 Pika 的 3 秒。
更重要的是,相比之前 AI 视频明显的 "AI 感 " 不同,Sora 制作的视频在逼真度和画面精致程度将整个 AI 视频行业提升到 next level。
从官网视频来看,人物脸上的黑痣粉刺,地面积水倒映的霓虹光影等等,其细节的精细度几乎已经做到了以假乱真。换句话来说,Sora 创作的视频质量,无论是高清度还是还原度,都是可圈可点的。
另一方面,同样引人关注的是,Sora 理解长文本的能力。OpenAI 在官方博客中写道,"Sora 不仅可以理解用户的需求,还知道这些事物在现实世界如何存在。"
什么意思呢?只需要输入一段文本,Sora 就能自动生成最长一分钟的高清视频。让人惊艳的是,Sora 不仅可以准确把握用户文本中的复杂意思,并且还能分拆出不同的元素,将其转换为有具体创意构思的视频内容,看起来就像是专业导演、摄像和剪辑的作品。
比如 Sora 以 " 色彩缤纷的鱼类和海洋生物充斥的,由纸艺精心构建的珊瑚礁世界 " 为主题的视频中, Sora 通过其摄影角度和拍摄时机,成功地推进了故事的发展。视频中实际上发生了多次镜头转换,这些没有特别指令它这么做,它却能自动完成。
据内行人士透露,像是 Sora 生成的视频,就算是头部动画制作公司都需要数日时间完成,而 Sora 只需要几分钟搞定。
国盛证券认为 Sora 相比此前其他文生视频模型,已经跨越到实用生产力工具,1 分钟长度有望大规模应用在短视频领網域,扩展视频的能力也有望制作长视频,或将带来新一轮内容创作产业革命。
当然 ,Sora 并不完美。OpenAI 官网指出它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系,混淆提示的空间细节。
以此次发布的 DEMO" 与中国龙一起庆祝农历新年的视频 " 为例,Sora 无法准确生成视频画面中的中文,还被网友调侃调侃 " 都怪中文太难了?" 以及视频中老人生日蛋糕蜡烛,但蜡烛火苗前面却没有丝毫变化等等。
但 OpenAI 的团队,让 AI 能从最初的模糊分辨不清的影像,进步到目前足以生成长视频的阶段,可见其发展可怖。
B 站一位网友是这么评价的:
"sora 出之前我还在给 gpt5 心里打一个问号,到底能提升多少,openai 还能继续领跑么,但现在我是真的服了,真的是比其他厂牛逼不止一点,一出手就是降维打击,sora 也是 transform 架构,这不就是 gpt5 的一部分么,之前网上说 gpt5 看完了互联网的所有视频我还不信,现在我信了 "。
竞争更新
Sora 最直接的影响的肯定是对视频行业的冲击。作为一种视频生成工具,Sora 仅需文字就可以生成 60 秒时长的精细视频,大大降低了视频制作的门槛和成本,特别是热点类等具备强烈时效性的内容。
不过 Sora 更深层的意义在于,这也意味着有关 AI 的竞争再度更新。
2023 年,ChatGPT 的发布引领全球进入 AI 热潮,光是中国公司就发布了超过 130 个大模型。起初,大家的目标都是朝着自研大模型进发——有钱的大厂研发基座模型,创业公司们则转向研发在开源模型基础上加入特定数据集做微调的行业模型、垂直模型。
但事实证明,大模型真正的门槛在于高昂的成本——海量的算力、能提供定制服务的数据服务商和顶尖的人才团队。
以算力为例,目前市场绝大部分被用于训练大模型的算力芯片都来自于英伟达。根据财经报道,2023 年,英伟达 A100 的售价涨了约 1 倍。单单部署 1000 台伺服器的电力成本就高达月 20 万元。
大厂们的优势在于,既拥有雄厚的财力去大规模购买、部署 GPU,也能及时通过工程优化,利用大模型去实现效率提升。
根据晚点 LatePost 报道,11 月,基于阿里的 " 通义千问 ",跨境业务 AI Business 团队正式对外公布自己的产品 "Aidge",兼具翻译、营销、设计、本地化服务等一系列功能。统计数据显示,11 月经过 AI 优化后的商品,获得的海外询盘量比之前增加了 15%。
字节则在推出了云雀大模型后,相继研发出了豆包、扣子、话炉等产品。以话炉为例,用户可以在其中与 AI 智能体一道,通过故事聊天、创作,获得互动体验。
Sora 使用 transformer 架构,将视频和影像表示为称为 Patch 的较小数据单元的集合,类似于 GPT 中的 token。重要的是,它和 GPT 一样符合 AI 缩尺律(Scaling Law),也就是说随着训练计算量的增加,样本质量明显提高。
有行业人士表示,目前 Sora 暂未对外开放使用,仅 OpenAI CEO Sam Altman 在 X 平台上与评论互动生成视频,认为算力的限制可能是目前 Sora 暂未开放使用的重要因素。
算力已经成为了各家最为关注的资源之一。2018 年,Altman 个人投资了一家 AI 芯片初创公司 Rain Neuromorphics,2019 年,OpenAI 花费 5100 万美元购买 Rain 的芯片;去年 11 月,Altman 为一家代号为 "Tigris" 的芯片企业寻求数十亿美元的资金。
软银集团创始人孙正义则正寻求筹措 1000 亿美元资金成立一家芯片企业,与旗下半导体设计公司 ARM 的业务形成互补。
不过 Sora 的惊艳并不意味着其他人就没有机会。视频生成赛道此前的明星公司是 Runway 和 Pika,尽管有许多人认为 Sora 很容易对两者进行降维打击,但 Pika 创始人郭文景在回应钛媒体时称," 我们觉得这是一个很振奋人心的消息,我们已经在筹备直接冲,将直接对标 Sora。"
事实上,OpenAI 也并非毫无对手。和 Sora 同一时期发布的还有谷歌的 Gemini1.5 Pro,根据官方数据,其支持长达 100 万个 token,远超当前其他基础模型,可以一次性处理大量信息,如 1 小时的视频、11 小时的音频、超过 3 万行代码或超过 70 万个单词。
Sora 当然是 OpenAI 领先的有力证明,但更像是大模型这个 " 大力出奇迹 " 赛道竞争更新的信号。
>