智能驾驶的又一变革节点：大模型之战后，谁能做出中国版Sora？

今天小编分享的汽车经验：智能驾驶的又一变革节点：大模型之战后，谁能做出中国版Sora？，欢迎阅读。

Sora 火了。OpenAI 公布了一组由 Sora 生成的 Demo 视频，其效果之逼真，细节之丰富，还是在互联网世界引发了巨浪。这也意味着，一句简单的提示词，就能够生成以往可能需要一个专业团队才能制作的视频。

从最近爆火的李一舟的 AI 课再到各路 " 普通人用 Sora 赚钱的 10 种办法 ""99.9 元给自己的未来一个机会 " 等等，哪怕目前 Sora 只发布了多个演示视频和技术指导，绝大多数人至今都没用上这款前沿应用，但也阻挡不了大家对人工智能改造影像世界的期待。

2023 年初，在 OpenAI 发布 ChatGPT 将近两个月之后，百度很快推出了中国第一款生成式人工智能大模型，随后，各路厂商纷纷入局，整个 2023 年成为生成式 AI 元年，沉寂已久的中国 AI 战场掀起了一场百模大战。

一年之后，OpenAI 再度放出一记王炸。这一次，中国市场反应最快的是 360 集团的周鸿祎，不过，他只是暂时在视频号上表达了他的震撼：" 一旦人工智能接上摄像头……对世界的理解将远远超过文字学习。比如人在驾驶汽车的时候，很多判断是基于对这个世界的理解。比如对方的速度怎么样，能否发生碰撞，碰撞严重性如何，如果没有对世界的理解就很难做出一个真正的无人驾驶。"

周鸿祎说，这次 Sora 只是小试牛刀，它展现的不仅仅是一个视频制作的能力，" 它展现的是大模型对真实世界有了理解和模拟之后，会带来新的成果和突破。" 当然不用周鸿祎多说，但凡是看了 Sora 视频的人，都会相信，一个新的时代要来了。因为这意味着 AI 对于人类世界的理解更进了一步。如果说 ChatGPT 是纸质地图的话，Sora 能够实现的，就是全息影像导航了。

Sora 技术是由 OpenAI 开发的一种基于分布式训练的 AI 模型训练框架。ChatGPT 是单一模态语言模型的典型代表。大语言模型是借助 Token Embedding 思路，在大量文本数据基础上将人类语言解码生成机器语言，随后通过结构化的深度学习之后，重新计算组合，并翻译成人类可以理解的语言，而 Sora 则是标准意义上的多模态大模型代表。

它允许研究者和开发者在多个节点上并行训练 AI 模型，将 AI 模型的训练任务拆抽成多个子任务，并在多个节点上并行执行。从 OpenAI Sora 官方公布的论文来看，其原理事实上就是在以往文字、图片的基础上进一步增加多维度的计算任务。这也意味着对更高性能的芯片和更庞大的算力提出更严苛且昂贵的要求。

同样以 AI 应用最为广泛的自动驾驶场景为例，以前的 AI 可能只能理解数据库中的导航数据并做出决策；但这一次，Sora 意味着，人工智能对于影像的理解正在出现一次根本性的飞跃——它不再需要把影像翻译成文字或者数据，它已经能够充分理解影像的意义。这也让 L4 级的自动驾驶技术落地增加了新的可能。

但一个关键问题也随之诞生：这一次，中国版本的 Sora，或者说中国市场上第一个有能力做文生视频的公司，会是谁？

从去年百模大战的表现来看，从研发实力到数据量和应用场景来看，最具有可能性的应该是如下这五家。

百度

作为文生文时代大模型的一号位，百度当然必须在这一排名中拥有位置。

大模型巨浪滔天，早已在 2019 年就已布局大模型技术的百度，顺势在 2023 年占据 C 位，回顾整个 2023 年，百度所有重点工作、内部的系列变革，都是围绕 AI 这个关键词进行的。文心一言的推出，也让百度在 2023 年隐隐有重回互联网一线大厂的趋势。

其实算起来，百度的 AI 布局，在中国互联网大厂中无疑算是较早的那一拨。从 2013 年布局深度学习技术算起，百度进军 AI 刚好 10 个年头。其间在陆奇执掌百度时，还提出过 "all in AI" 的重大战略调整。

而且，百度本身算得上是拥有 AI 的基因。搜索业务意味着大量数据沉淀，使得这一类公司天然地具有投入 AI 的优势。从目前全球范围来看，唯一能够与 OpenAI 叫板的，也就只有谷歌的 Gemini 了。

更为重要的是，百度其实也拥有 AI 的一个关键应用场景——自动驾驶。百度自 2013 年就投入自动驾驶研发，2015 年起正式成立 L4 事业部以来，每年的研发投入就不低于 100 亿。近期有机构就认为，Sora 的成功以及其背后展现出的涌现能力可能为计算机视觉领網域的研究提供了一个明确的方向，成为未来视频与模拟领網域（例如自动驾驶）的统一范式。

而目前在一众互联网公司中，在自动驾驶领網域耕耘最久的，就是百度。

此外，百度的决心显得更为强烈。与腾讯、阿里、字节、快手等公司更多将 AIGC 作为一个创新业务来看待不同，百度明确要求，全公司各个业务条线都尝试用 AI 进行重构。

在 2023 年的百度世界大会上，李彦宏 " 手把手教你做 AI 原生应用 "，发布文心大模型 4.0、讲解大模型四大核心能力、展示十余款百度的 AI 原生应用，这些成果背后是百度在人工智能领網域十年的积累。

无论是从李彦宏的态度还是从百度的能力禀赋来看，百度应该是最具有可能性推出文生视频的那一批。

字节

近期另一家传出可能性的，是字节跳动。

2 月 20 日有消息称，在 Sora 引爆 " 文生视频 " 赛道前，字节跳动也推出了一款创新性视频模型 Boximator。与 Gen-2、Pink1.0 等模型不同的是，Boximator 可以通过文本精准控制生成视频中人物或物体的动作。

不过，字节跳动方面否认了其会是 " 中国版 Sora"。据字节方面称，Boximator 是视频生成领網域控制对象运动的技术方法研究项目，目前还无法作为完善的产品落地，距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。

但即便如此，字节跳动背后的抖音和 tiktok，却是被认为最先可能受到 Sora 冲击的市场应用。一篇报道称，多位业内人士指出，以目前 Sora 生成视频的长度来看，它的到来最先会冲击到短视频领網域。一旦大范围推广，Sora 将大大降低短视频创作门槛，丰富短视频平台的内容供给，但随之而来的问题是，AI 生成内容的增多可能会影响平台的内容生态，同时 Sora 还会和剪映、快影等工具抢夺用户。

如今我们回过头再看年前的一则消息，会感受到字节跳动内部的 AI 焦虑。

2 月 7 日，抖音集团 CEO 张楠宣布自己已经辞去集团 CEO 一职，未来将把精力聚焦在剪映的发展上。当时引发市场哗然，毕竟，作为抖音的一个延伸工具产品，剪映的体量和规模，和抖音完全不在一个量级上。张楠的工作出现这种变化，难道是字节内部组织发生大的变化？

事实证明，张一鸣是有远见的。张楠的是带领抖音一步步走向成功的关键战将。而如今，字节跳动的最大战场，正在于 AI。

而从这个角度来说，剪映大概率是字节内部判断的最有可能把 AI 应用跑出来的产品。

阿里

在全球第四的阿里云加持下，阿里无论是从高端智能芯片的拥有量还是从算法、数据来看，阿里的能力毋庸讳言。在去年百度推出文心一言之后，很快阿里就推出了通义千问，且表现出色。

而很多人没有注意到的是，在今年 1 月中下旬，通义千问最新更新的视觉语言大模型 Qwen-VL-Max 正式发布，这款大模型在多个测评基准上取得了好成绩，并实现了强大的影像理解的能力。

在 Qwen-VL-Plus 发布后，国内也有人拿 Gemini 演示视频里的问题对它进行了测试，发现所有问题 Qwen-VL-Plus 完全都能回答上来。也就是说，在图片和视频的影响理解上，阿里的通义千问是具备一定的竞争力的。

事实上，通义千问的视觉理解大模型已经经历了几轮迭代。早在去年 8 月，阿里就放出了 Qwen-VL 模型的第一个版本，并很快对通义千问进行了更新。Qwen-VL 支持以影像、文本作为输入，并以文本、影像、检测框作为输出，让大模型真正具备了「看」世界的能力。

但从理解图片和视频，到生成图片和视频，中间依然还存在巨大的鸿沟需要跨越。

附上最近通义千问的一个小八卦。2 月 22 日，一张阿里云通义千问研究员的工作日程在网上流出，显示该员工从早上九点起开始忙碌至晚上十点，随后又在凌晨叫醒同事讨论新想法。网传图片显示的作息规律与流出的 Sora 一线研究员高度相似。因此，业界传言阿里云通义千问效仿 Sora 一线员工作息，强化工作强度。

尽管对于这一问题阿里云方面很快辟谣称，" 假的，绝对不可能有这样的事。" 但由此也可见，通义千问一定存在着对标中国版 Sora 的压力。

腾讯

其实，在列完前三个之后，再列第四和第五，已经是一件相对比较困难的事情。一方面，中国存在一批能力不错的独立 AI 厂商比如王小川的百川智能、张鹏的智谱 AI 等，加上还有曾经的 AI 四小龙商汤、云从等，因此，后面的排名其实更多是供参考。

但是之所以把文生文大模型才发布没多久的腾讯列在这个位置，主要还是考虑到一个问题：具有 AI 的研发能力和具有 AI 的落地应用能力，是两码事。而腾讯的最大优势就在于，极为丰富的应用场景和海量的数据；更为重要的是，作为中国互联网公司塔尖上的厂商，腾讯的视频、影业同样是其业务的重要组成板块，其大力布局 AI 只是时间问题。

最新的消息是，2 月 22 日，腾讯会议上线了基于混元大模型的 AI 小助手。根据官网介绍，腾讯会议 AI 小助手可以覆盖会议全流程，通过简单自然的指令，完成信息提取、内容分析、智能提醒等多种复杂任务，提升开会和信息流转效率。

腾讯会议的体量如何，只要是在写字楼打过工的人应该都有体会。而腾讯所拥有的这种覆盖量能力，是前面三者都可能很难以企及的。

而且能够明显看出，腾讯的 AI 战略和其他厂商不同——它有自己的节奏。相比去年上半年百模大战一拥而上，腾讯直到三季度才姗姗来迟地发布了混元大模型。而且在财报电话会上，马化腾对于 AI 的发展战略也呈现出不愿意凑热闹的态度。

事实上，在 2023 年，AI 也远没有看到产生大规模商业化回报的可能性。技术还在探索之中，而擅长技术落地应用的腾讯，应该还在等待一个关键时机。只是，这个时机是否是 Sora，还是个未知数。

科大讯飞

如果说前面列的四个更多是传统互联网巨头，那么作为一个需要海量资金投入的行业，国家队也必须拥有姓名。能够作为国家队代表的，应该就是科大讯飞了。

早在 2011 年，讯飞便承建了语音及语言信息处理国家工程实验室，提出让机器像人一样能听会说；2014 年，讯飞推出 " 讯飞超腦计划 "，提出让机器像人一样能理解会思考，2022 年又将其更新为 " 讯飞超腦 2030 计划 "。算力方面，科大讯飞还联手华为，让大模型建立在安全可控的国产算力平台之上；讯飞开放平台目前已开放 560 项 AI 能力，并聚集超过 500 万生态合作伙伴。

但科大讯飞之所以会被列在这一可能性名单中还有很重要的一个原因是，科大讯飞在过去的语音识别领網域，确实积累了丰富的经验。原研技术固然很重要，但数据的训练、应用场景的迭代同样不可或缺。

从科大讯飞过往的优势业务来看，在教育方面，讯飞星火认知大模型 +AI 学习机让 AI 像老师一样批改作文；办公方面，大模型 + 讯飞听见，能够实现录音一键成稿，一分钟输出流畅会议文案，大模型 + 智能办公本能够根据手写要点自动生成会议纪要。这些场景的积累加上背后来自国家队的人才和资金以及算力的支持，使得科大讯飞应该是有能力掌握进入文生视频领網域的一张门票。

不过，相比去年 ChatGPT 发布之后，中国科技厂商随即纷纷摩拳擦掌要大干一场，2024 年由 Sora 所引发的新浪潮，这一次似乎没有去年那么大的动静。这一次有可能是大家都变得更谨慎，但更大的原因我相信是，相比 ChatGPT，Sora 的门槛大大提高了。

由此也可见，生成式 AI 的全球竞争，正在驶入拉开关键差距的深水区。

推荐阅读