大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 互联网

谁是中国版Sora?

2024-02-21 简体 HK SG TW

今天小编分享的互联网经验:谁是中国版Sora?,欢迎阅读。

图片来源 @视觉中国

文 | 科技新知

鏖战一年的 " 百模大战 " 还未结束,两个海外 AI 巨头又给国内科技大厂出了难题。

就在春节假期的尾声,谷歌和 OpenAI 毫无征兆地放出了各自的 AI 新 " 核武 "。

谷歌拿出的新一代多模态大模型 Gemini 1.5 Pro,将性能提升到了百万级别,完全秒杀了 OpenAI 的 GPT-4 Turbo,暂居地表最强。

而后者发布的首个文生视频模型 Sora ,则基于视觉美学的惊艳表现,更让人印象深刻,迅速成为全球科技圈追捧的热点。

在生成视频的保真度、长度、稳定性、一致性、分辨率、文字理解等各方面,Sora 已经超过 Gen-2、SVD-XT、Pika 等主流产品,做到了当前最优,可以说一出手就是王炸。

去年,国内的百度、阿里、科大讯飞等互联网公司纷纷推出了自研大模型,争抢智能变革时代的船票;华为、小米、OPPO、vivo 等手机厂商也布局大模型,希望新技术为见顶的市场带来新的生机;众多创业公司也进入该赛道,试图轻装上阵、弯道超车。

但物理意义上的鸿沟让国内的大模型产品在性能、生态等方面还与 ChatGPT 有着不小的差距。而如今视频生成模型 Sora 的诞生,不出意外也将再次掀起一波跟风的浪潮。

然而,颠覆性的效果往往来自颠覆性的思路。从当前节点来看,在 AI 大模型领網域国内企业与世界前端到底还有多大差距?差在哪里?又有哪些种子选手可能脱颖而出?

恐慌

对于 Sora 的横空出世,马斯克的评论 "gg humans(人类认输了)",算是一种主流看法。

此前,虽然已经有大量文生视频技术,但尚未实现技术收敛,主要实现路径是通过各种手段让单帧的图片 " 动 " 起来,类似定格动画。而从用户的实际需求来看,视频每一帧之间的连贯性与自然度是价值的关键,也就是视频每帧语义信息的无缝衔接才是核心。

也就是说,Sora 这种围绕需求提供对应技术解决方案的产品,要远远优于通过技术可实现的角度来创造产品。

根据 OpenAI 官网上的介绍指出,Sora 与之前的文生视频思路并不一样,是让模型一次预测多帧画面,并且确保视频主体保持不变。这正是其巧妙之处——在视频帧上做突破,提升了生成视频的使用上限。

360 创始人周鸿祎也给予了极高评价,他认为 Sora 的诞生意味着 AGI(通用人工智能)的实现可能从十年缩短至一两年。

作为 Sora 的前辈,AI 文生视频创企 Runway 联合创始人兼 CEO Crist ó bal Valenzuela 感慨道,以前需要花费一年的进展,变成了几个月就能实现,又变成了几天、几小时。

Sora 发布前还曾有很多烟雾弹式的信息被放出。比如 OpenAI 组建了研究儿童安全的新团队,或是正准备推出 GPT-4.5-turbo,但真正的 " 杀手级更新 " 被隐藏得很好。这也导致像 Pika、Runway 一样的明星创业公司,面对 Sora 措手不及。

其实,国内外大厂对于 AI 视频生成的态度一直模棱两可。根本问题在于,现在的人工视频质量、效果更好,且成本也能接受;AI 视频生成此前没有大家想象的那么颠覆,所以整体策略偏向防御,而非进攻。

值得一提的是,国内的字节跳动以及百度的嗅觉更加敏锐。百度早在去年 3 月文心一言的发布会上,便发布了 AI 文生视频的功能,百度 AI 会自动根据文字内容寻找合适的视频素材,生成视频后并自动发布,这是属于文心一言 AIGC 的 TTV(文本内容情感化分析)功能。

字节跳动则在去年 11 月发布了 PixelDance,可以通过上一个视频片段尾帧,为下一个视频片段头帧提供指导的思路,在视频时长上有所突破,但至今仍然没有开放用户测试,所以具体效果如何还是未知。

如果从 GPT 的发展路径来看,所有做 AI 视频生成甚至做大模型的公司将面临新一波危机。就像周鸿祎所说,尽管国内大模型发展水平表面看已经接近 GPT-3.5,但实际上跟 4.0 比还有一年半的差距。OpenAl 手里应该还有一些秘密武器,无论是 GPT-5 还是机器自我学习自动产生内容。

但是危险中也蕴藏着机遇。OpenAI 证明了用大模型的思路做视频是可行的,文生视频能蔚然成风成为全球新一轮 AIGC 竞赛的焦点,也给短视频平台上的直播电商、内容创作等带来更高的天花板。其他互联网企业和内容平台,需要做的只是证明自己也可以用大模型做出视频。

从技术角度来看,Sora 属于多模态混合模型,由大语言模型和文图生成器拼接而成。这也意味着多模态模型迭代节奏加快,不出意外 2024 年的第一波 AI 风潮将就此展开。

风起

自 2022 年末 ChatGPT 崭露头角,其强大的影响力如野火燎原般蔓延至国内科技圈。百度、阿里巴巴、腾讯等一众互联网大厂,以及以米 OV 为代表的智能硬體公司,仿佛嗅到了新时代的气息,纷纷宣布推出自家的大模型,意图在这波 AI 浪潮中占据一席之地。

与此同时,文生图、文生视频等多模态 AIGC 产品也在有序推进。实事求是地来看,AI 生文、生图的应用,早已层出不穷,相关的技术不断日新月异。相比之下,AI 文生视频,却是一个迟迟未被攻下的阵地,难度和价值一样巨大。

公开信息显示,包括字节跳动、百度、阿里、海康威视、万兴科技、拓尔思、当虹科技在内的科技公司,都在积极布局文生视频,但与 Sora 相比存在不小的差距。

简单来讲,之前的 AI 文生视频工具,仅仅停留在 " 模拟现实 " 的层面,Sora 则已经跃升到了 " 构建现实 " 的新高度。两者的根本区别在于,前者只是对现实世界的表面模仿,难以深入捕捉现实世界的物理规则和动态变化;而后者则是在虚拟世界中重新构建了一种与现实世界并行的存在。

Sora 不仅学习了像素与画面的呈现,更深入理解了现实世界的 " 物理规律 "。例如在现实世界中,我们每咬下一口食物,食物上都会留下咬痕,这是遵循物理规则的自然现象。Sora 生成的视频中,同样能够精准地再现这一细节,做到 " 咬下去有痕迹 ",从而在虚拟世界中完美再现了现实世界的真实感。而这是其他文生视频产品所做不到的。

以百度的文心一言为例,虽然其能够根据输入的文本生成视频,但在处理复杂场景和细节描绘方面仍存在不足。并且百度 AI 文生视频也更像是从已有素材库中找到更接近文字意思的视频进行拼接,单靠 AI 很难生成新的视频内容。

今年初,字节跳动发布了一款超高清文生视频模型 MagicVideo-V2。据悉,该模型输出的视频在高清度、润滑度、连贯性、文本语义还原等方面,比目前主流的文生视频模型 Gen-2、Stable Video Diffusion、Pika 1.0 等更出色。

抖音的张楠已于 2 月初辞去 CEO 岗位,聚焦在剪映业务上。这意味着,抖音将加强对 AI 生图和视频产品的布局,其中文生视频自然是重中之重。

不过在张楠的规划中,AI 视频所应具备的更高保真度生成效果、更清晰生成画面、更顺畅自然的逻辑理解能力等,也被 Sora 一朝之间吊打。

相对于互联网巨头的低调表现,一些上市公司在近期却积极发声,纷纷披露自己在视频生成模型领網域的业务情况。

据不完全统计,包括万兴科技、博汇科技、易点天下、数码视讯、汉王科技、当虹科技、东方国信、神思电子、因赛集团、拓尔思、国脉文化、佳都科技在内的超 10 家 A 股上市公司,近三个月以来在互动平台上各自披露了相关视频生成模型领網域的业务情况。

但不能否认的是,真正达到前沿水平的公司凤毛麟角,许多公司只是在跟风炒作,缺乏真正的技术储备和研发能力。

东方国信直言不讳地表示,他们在 AI 视频生成领網域尚无成熟的技术储备;而神思电子则回应称,公司正在对文生图、图生文、视频生文、文生视频等多模态数据互相跳转的收敛性质进行深入研究,言下之意,他们在这方面的技术也还在探索阶段。

AI 文生视频的颠覆性,可以具体到实际运用层面来看。图片、视频生成能帮助提高企业的商业化需求,如帮助降低广告客户成本、便捷制作视频等。拿字节跳动举例,其广告客户投放总成本中有一到两成为视频制作成本,而去年开始字节已经用相关产品帮助广告客户压缩这部分投入。

与上一波 ChatGPT 的风潮相似,尽管在推出类似 AI 文生视频产品方面国内企业难免落后一步,但也不失为一个摸着 Sora 过河的机会。

涌动

从全球市场来看,AI 仍然引领着整个科技商业前进的方向,而且多模态成为主流。从大语言模型到多模态,再到通用人工智能的路径已经逐渐清晰,分歧点还是在于节奏的判断。

此前,OpenAI 花了大约半年时间来测试大语言模型 GPT-4。如果测试 Sora 需要差不多的时长,这个强大的视频生成工具可能会在今年 8 月份开放。而这半年时间便是其他企业积累力量的視窗期。

毕竟 ChatGPT 已经问世一年多,但还有大量用户没有使用过聊天机器人相关产品,这也为其他企业迎头赶上提供了机会。

而目前国内企业面临的最大问题,还在于第一梯队的 AI 公司如百度、科大讯飞的股价,因各种原因被打到了地板价,而国外的顶级企业,如英伟达、微软的股价创出新高,OpenAI 的估值仍然在不断上升。这也意味着海内外 AI 企业在资本、人才、技术、市场号召力等方面存在着天然的优劣差异。

周鸿祎认为,科技竞争最终比拼的是人才密度和深厚积累。事实也是如此,Sora 应用的是 Transformer+Diffusion。从模型架构来看,如果以 Transformer 为基准,那么文生视频依旧是龙头科技企业更有优先权,但是如果生成式视频架构依旧围绕 Diffusion 展开的话,创业企业机会要更大一些。

不过没有一骑绝尘的技术,只有螺旋式上升的产业繁荣。

Sora 虽然可以一次性生成几十秒到一分钟的视频,但是真正在应用阶段,如果产品没有提供足够多的微操空间,确保用户能够将其整合到自己的工作流中,那么大概率也只能叫好不叫座。

好在技术的扩散才刚刚开始,不会有任何一家公司 " 猝死 " 在新技术的出现上。OpenAI 更像是一个开拓者,强项在于铺路,普及应用尚需要生态的力量。

就像是在文生文模型上的模块化组合,是否会有类似手机、智能音箱一样的专有智能设备问世?让更多用户可以在端侧使用模型,构建起开源 + 小参数模型 + 移动端的思路,把当下的产品做一次革新。这是国内厂商所擅长的,但同时也是未来内卷的阵地。

从单点的突破来看,Sora 具有里程碑意义;但是从商业化需求和混剪工作流效率提升来看,Sora 本身的价值和落地效果还有待考究。

想仅靠 AI 生成的一分钟视频成为下一个董宇辉、李佳琪并不现实,更别说制作长视频或者电影、电视剧了,即便是做一个短视频,是通过一遍遍修改提示词更加有效率,还是在视频剪辑軟體里按照创作者的想法调整素材更快?显然,期待 Sora 变得更强,不如期待视频剪辑軟體中尽早增添 AI 模块,从而切实提升工作效率。

即使最终 Sora 全面放开注册,普通用户也难以做出如当前演示案例般的视频 Demo。所以最终各个大厂的决胜点还是在于如何普及多模态的应用,如何在工具中加入 AI 功能,更直接地优化工作流程。

新兴技术具有普适性,并不是某个企业的专属。对于国内企业来说,在多模态上的探索不妨可以参考 GPT 的发展、落地方式,在特定垂直领網域的应用层面找到自身的优势,并以此作为方向实现快速发展。

只是在这个过程中,拼的还是人才密度、落地程度以及犯错误的次数。

熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們