Sora终于来了，但多模态AI呼唤实用主义

今天小编分享的科技经验：Sora终于来了，但多模态AI呼唤实用主义，欢迎阅读。

Sora 的现实问题

随着 ChatGPT 等大语言模型的问世，人工智能进入了一个全新的时代。在这股浪潮中，多模态 AI 技术成为业界竞相追逐的目标，OpenAI 的 Sora 更是将这股热情推向高潮。

等待了 299 天之后，屡次跳票的 Sora 终于来了，OpenAI 在北京时间 12 月 10 日凌晨正式发布了全新视频生成模型 Sora Turbo。

然而，从实测的效果来看，Sora 的效果并没有带来太多惊喜，无论是在视频时长、生成效果一致性、还是指令遵循方面，都没有明显强于市面上的已有视频模型。

事实上，Sam Altman 将 Sora 比作视频版 GPT-1 的说法其实暴露了这个项目的尴尬处境。因为 GPT-1 更像是一种实验性模型，不太适合作为直接可用的生产工具，它主要被用作科研领網域的参考。

在投入大量资源和时间后，Sora 如果呈现的只是一个概念验证级别的产品，如果真如 GPT-1 一般需要经过多次迭代以及技术突破才能达到实用水平，那么考虑到视频生成所需的巨大算力投入和数据需求，这种战略选择的成本效益比恐怕令人担忧。

一边用夸张的宣传和神秘感制造期待，一边交出的却是一个并没有多少突破性进展的产品。特别是在 2024 年末这个时间点，当国内外竞争对手已经通过快速迭代实现了类似水平的效果，这种 " 落差 " 的表现略显尴尬。

不可否认，Sora 的发布代表了多模态 AI 技术的重要里程碑。它展现了一个 " 会预测未来 " 的 AI 系统的雏形，让人们对通用人工智能 ( AGI ) 的到来充满期待。只不过，这次 OpenAI 已经不再将 Sora 称为 " 世界模拟器 " 了。

关于 Sora 的技术局限性的争论由来已久，例如，Sora 在生成视频时常出现逻辑错误，如物体运动不符合物理规律、因果关系混乱等问题，现在的 Sora Turbo 显然也没有解决这一问题。早在年初，Meta 首席科学家杨立昆就直言，Sora 的生成式技术路线 " 注定失败 "，因为其依赖于大规模数据训练的概率模型，无法真正理解物理世界的因果关系。此外，Sora 的生成过程更多是对已有数据的拟合，而非创造新知识，这使其在模拟真实世界方面仍有很长的路要走。

梦想总归要回到现实，除了技术成熟度，Sora 在产业化方面还存在诸多挑战：

首先，Sora 的训练和应用成本极其高昂。据 Factorial Funds 估算，如果 Sora 要大规模应用，还需要约 72 万片英伟达 H100 GPU 的支持，这意味着 216 亿美元的硬體投入。如此天价的算力消耗，让 Sora 很难在短期内实现商业闭环。

其次，Sora 在落地场景方面尚不成熟。尽管 Sora 已经正式发布，但在效果上离真正的 " 世界模拟器 " 差距甚远，现阶段更像是一个玩具而无法成为一个真正实用的创意工具。可以说，Sora 离真正的 "iPhone 时刻 " 还有相当长的路要走。

就像上世纪 60 年代的核聚变发电：展示出令人震撼的潜力，吸引了大量投资和顶尖人才，但随着研究深入，技术难度和资源投入却呈指数级增长。虽然每隔几年就有突破性进展的报告，但要实现真正可控、稳定的商业应用，始终像隔着 " 永远差 30 年 " 的距离。

所以，如今的 Sora 面临这样一个困境：在完美的演示视频背后，是否存在不可逾越的技术瓶颈？这种追求完美视频生成的路径，会不会最终被证明是一个代价高昂的技术死胡同？要将实验室的演示转化为真正有价值的应用，可能比我们想象的要困难得多。

对此，百度创始人李彦宏在最近接受采访时曾表示：" 如果真的能够做到任意场景下视频生成，那可能要很长很长时间，而且成本很高。"由此可见，百度并非不重视 Sora 所代表的技术方向。只是基于务实的判断，选择了另一条路线。

" 应用驱动 " 成为第一性原理

与许多厂商专注于打造 Sora 这样的通用文生视频模型不同，百度智能云的着眼点在于帮助客户实现多模态应用的落地。正如李彦宏所言，" 我们更关心怎么帮用户把应用跑起来 "。事实上，在众多行业客户的实际场景里，他们真正需要的是在自己的应用中拥有可靠的多模态能力，而不仅仅是一个裸的通用模型。百度智能云深谙此道，通过多年来在多模态领網域的深厚积累和大量工程化实践，以更简单快捷、低门槛的方式赋能客户，让多模态应用能够开花。这也是百度暂不直接做 Sora，而是聚焦应用落地的重要原因。

不做 Sora，并不意味着百度在多模态 AI 领網域缺席。恰恰相反，百度一直在多模态领網域有着长期而深厚的积累，只是选择了一条应用驱动的路线。

随着当前大模型性能增长遇到瓶颈，AI 正在进入 " 冷静期 "。海外 AI 巨头从追求 AGI 转向务实路线，OpenAI 尝试转向盈利性商业化运营，谷歌、微软等纷纷聚焦商业变现和产业应用，重点发展 To C 业务、企业服务和开发者生态。

正如历史上的典型的技术周期：高期望→泡沫→冷静期→务实应用。行业需要从 " 技术优先 " 的逻辑切换到 " 应用优先 " 的轨道，通过实践中反馈的需求和问题为技术发展指明方向。

那么，什么是 " 应用驱动 "？简而言之，就是从真实应用场景出发，梳理 AI 落地的关键问题，并聚焦资源予以解决，最终让技术产生实际价值。这有别于动辄 " 颠覆性创新 "、追求酷炫 Demo 的做法。在李彦宏看来，" 我更多希望尽早接触场景及接触应用，看在这个过程当中，到底遇到了什么问题，把这些问题带回来，我们综合一下，看大家遇到的最多的问题，就是我们优先解决的问题。"

这种理念，与当年云计算之于互联网的关系有着异曲同工之妙。回溯历史，正是得益于云计算平台在基础设施层面的支撑，互联网企业才能将更多的精力聚焦在业务创新上，加速用户需求与技术能力的迭代融合，最终催生出一个繁荣的应用生态。

如今，百度智能云正是希望在多模态 AI 领網域扮演这样一个 " 助推器 " 的角色。通过在算力、平台、安全等多个维度提供支持，让更多的企业和开发者无需在复杂的模型训练、部署、应用开发上 " 翻山越岭 "，而是专注于挖掘行业需求、打造可用的智能化应用，让多模态 AI 从实验原型逐步发展为日常工具。

站在这个思路上审视多模态 AI，就不难理解百度智能云的战略选择。在多模态 AI 落地的过程中，有两大关键挑战亟待攻克：一是实现更自然的人机互動，二是提高模型的可控性、尽可能消除幻觉。单纯的视频生成模型虽然看上去很酷，但还难以很好地解决这两大问题。反而是在一些垂直领網域，用更简单实在的多模态技术，就能让 AI 先跑起来。

比如在工业质检领網域，结合影像识别和文本描述的多模态系统已经能准确找出产品瑕疵并生成详细的检测报告；又如在医疗影像诊断中，将 X 光片、CT 等影像与病历文本结合分析的方案，已经在多家医院实现规模化应用。这些看似日常的应用，才是 AI 真正创造价值的开始。

这正是百度多年来在多模态 AI 领網域的投入方向。李彦宏强调，" 外界有一种误解就是百度不做 Sora，就等于是百度不做多模态。我们非常非常看好多模态，我们也在多模态上有非常长期的多年投入，在真正有应用场景的地方，我们的多模态能力是非常强的。"

多模态 AI 的 " 地基 "

多模态 AI 的门槛高、难度大，这是业界公认的痛点。各类模态数据的处理、模型训练的调优、推理服务的部署，每一个环节都需要大量的专业知识和工程经验。这无疑阻碍了多模态 AI 在更广泛行业中的应用。百度智能云是如何支撑多模态技术大规模落地的？

在模型训练层面，百度智能云的百舸计算平台实现了主流多模态大模型的全覆盖，除了支持 MLLM、CogvIm2、Qwen2-VL 等业界领先的多模态模型，还针对多模态训练的特点提供了一系列优化方案。其中，" 多芯混训 " 可以兼容英伟达、昆仑等多种芯片，充分发挥芯片的异构性能，并能在万卡规模下将两种芯片混合训练下的效率折损控制在 5% 以内；" 长上下文训练 " 则突破了序列长度的瓶颈，为多模态模型拓展了更广阔的应用空间；" 大集群高效训练 " 的并行策略，进一步提高了多模态训练的效率，使万卡任务上的模型有效训练时长占比达到 99.5%、端到端的性能提升 30%。

在模型推理方面，百度智能云同样展现了全栈式的优势，百舸适配了各类客户场景，既支持用户自定义镜像部署，满足个性化需求；又能在英伟达、昆仑等异构芯片上实现推理服务，兼顾成本与性能；针对主流的文生图、文生视频、多模态模型，还提供了一系列加速优化方案，通过架构分离、KV Cache、负载分配等一系列加速工作，让长文本推理效率提升了 1 倍多。

作为一个全栈式开发平台，千帆平台提供了不同层级的开发路径。对于普通 AI 应用开发者新手，千帆 ModelBuilder 提供开箱即用的多模态能力，涵盖影像生成、理解、视频生成等热门领網域。用户只需调用 API 接口，即可实现多模态互動，无需理会背后复杂的模型结构和训练过程。除此之外，千帆 AppBuilder 作为企业级应用开发平台，可以帮助客户和开发者不断降低应用开发门槛，提供丰富的多模态能力，包括文生图、影像内容理解等图片处理组件，短语音识别、短文本在线合成等语音处理组件以及数字人功能等，同时可实现多渠道对外集成分发，满足更丰富的应用需求场景。

对于追求定制化的企业用户，千帆提供灵活的定制化服务。用户可利用平台的数据处理、模型训练、推理优化等工具，构建匹配自身业务场景的多模态解决方案，支持从数据处理到模型训练的全流程开发。平台还集成了主题模型库，覆盖智能客服、数字人、知识管理等热门领網域，帮助用户快速搭建行业性多模态应用。

具体来看，千帆平台提供了非常全面、灵活的多模态服务方案。如果客户需要直接使用多模态大模型，可以在千帆上一键调用包括百度文心一格、Stable Difusion、Vidu 等在内的主流模型，覆盖从文生图、文生视频到影像理解等多个应用领網域。如果客户希望定制化训练和微调专属多模态大模型，搭建个性化应用，千帆平台同样提供强有力的算力和工具支持。

无论是复杂模型的训练，还是大规模推理能力的实现，云服务都在背后扮演着关键角色。通过提供这些基础设施服务，百度智能云帮助开发者和企业更专注于应用创新，而不必过多关注底层技术细节。

除此之外，百度智能云还将多模态能力进一步沉淀到行业解决方案和产品中。比如在工业领網域，打造了 " 一见 " 视觉大模型平台；在智能客服场景，提供多模态对话能力；在数字人领網域，实现了文生 3D 视频。可以说，百度智能云的多模态服务已经渗透到各行各业的关键生产力环节，以更贴近需求的方式帮助企业提质增效。

不做 Sora，是为了更多的 Sora

在百度智能云支撑下，越来越多的创新企业与开发者已经汇聚于此，借 " 他山之石 "，砌筑自己的 " 高楼 "。

生数科技就是其中的典型代表。这家致力于多模态大模型研发的明星企业，在百度百舸平台的加持下，推出了国内首个纯自研的视频大模型 Vidu。通过百舸平台超强的容错能力和训练加速能力，生数科技将 Vidu 训练素材渲染加速效率提升了 3 倍，数据拉取效率更是提升了 51 倍，可以说，百度为这个 " 国产 Sora" 的诞生提供了坚实的算力保障。

类似的案例还有哇嘶嗒 ( VAST ) ，这家 3D-AIGC 领網域的佼佼者同样将百度智能云视为 AI 创新的 " 压舱石 "。其面世的 3D 内容创作工具 "Tripo" 备受全球瞩目，被称为 3D 领網域的 "GPT-4"。而这一切的背后，正是百舸平台在算力、成本、工程化等方面的全方位赋能，帮助 VAST 快速构建起强大 AI 基础设施，获得成熟的 AI 工程化能力。

当然，多模态 AI 生态的触角远不止于内容创作领網域。以光魔科技为例，这家企业就瞄准了 AIGC 平台的普惠化。在百度智能云视频解决方案以及百舸平台的加持下，光魔科技推出的 " 白日梦 AI" 实现了一键式的文生视频能力，让每个普通用户都能 " 编出 " 专属影片，已经拥有大量忠实拥趸。

除了聚焦前沿技术的创业公司，百度智能云还在为百胜中国这样的 " 传统巨头 " 提供服务。依托百度智能云的大模型能力和智能客服解决方案，这家餐饮巨头打造了特色 AI 客服系统。该系统能够关联上下文、精准识别客户真实意图，提供更好的售后服务支持，同时还能辅助人工客服快速总结诉求、优化服务流程。这为百胜中国节省了大量客服成本，同时又提升了用户满意度。

由此可见，百度智能云正以其 " 地基 " 般的算力支持、有梯度的开发平台，为整个多模态 AI 生态提供源源不断的 " 能量 "，在未来孵化了出更多的 "Vidu"、"Tripo"，乃至更多的 "Sora"。

" 解决问题的 AI"

对比云计算对互联网产业的变革，以 AWS 为例，它不仅改变了企业的 IT 基础设施，更重要的是催生了新的商业模式和创新企业生态。进入 AI 时代，多模态 AI 代表了人工智能从专项能力到综合认知的重要跃升，这种突破不仅体现在技术维度的拓展，更反映在应用范式的转变上。

AWS 的 AI 时代的实践同样提供了一个很好的观察样本：在传统 AI 开发中，需要针对特定问题进行精心设计和训练。但在生成式 AI 时代，AWS 认为成功的产品化之路不应局限于单一模型的性能竞争，而是要着眼于更广阔的技术组合与应用场景，更多强调 " 降本增效 "、" 实用 " 的 AI。

技术永远只是手段而非目的本身。多模态 AI 正在重构传统的价值链条，这个过程中的关键在于如何将技术创新转化为可落地的解决方案，使不同规模、不同行业的企业都能找到适合自身的数字化转型路径。

特别值得关注的是，不同于过往依赖单一技术平台的垂直整合，新一代 AI 基础设施更强调开放协作。这种模式使得不同规模、不同行业的企业都能找到适合自身的数字化转型路径，从而让 AI 成为真正能够解决问题的 AI。从这个角度来看，百度智能云和 AWS 显然站在同一战线上：通过构建开放、灵活的 AI 基础设施，降低技术使用门槛，让 AI 真正服务于产业创新。