OpenAI首个文生视频模型Sora炸街！整个视频行业饭碗要被端了？业内人士：为时尚早

今天小编分享的财经经验：OpenAI首个文生视频模型Sora炸街！整个视频行业饭碗要被端了？业内人士：为时尚早，欢迎阅读。

《科创板日报》2 月 17 日讯（记者黄心怡）2 月 16 日凌晨，OpenAI 发布了首个文生视频模型 Sora，可以用文字指令生成长达 1 分钟的高清视频。

当前大模型在各个领網域的应用，主要集中在文生文、文生图之上，而在文生视频领網域却进步缓慢。此次文生视频模型 Sora 的发布，无疑令人振奋。不少业内分析指出，这将对于广告业、电影预告片、短视频行业带来巨大的颠覆。但也有从业者保持冷静：短期内的颠覆速度不一定那么快，更多地是借助新技术，激发更多人的创作力。

▍短期内较难带来颠覆性影响

在官网上已经更新了 48 个视频实例中，Sora 能够准确呈现视频细节，还能深刻理解物体在现实世界中的存在状态，并生成具有丰富情感的角色。

例如，某个 Prompt（大语言模型的提示词）的描述是美丽、白雪皑皑的东京城市熙熙攘攘。镜头穿过熙熙攘攘的城市街道，跟随几个人享受美丽的雪天，在附近的摊位上购物。绚丽的樱花花瓣和雪花一起在风中飞舞。

在 Sora 生成的视频里，镜头从俯视白雪覆盖的东京，慢慢推进到两个行人在街道上手牵手行走，街旁的樱花树和摊位的画面均细致呈现。

不少业内人士认为，这个进展的意义难以想象，将对电影、小说、动漫、教育、游戏、自媒体行业全部具有深远的影响。

但也有视频剪辑从业人员破冷水：" 大规模应用后能否催生更多好作品不清楚，但制造视频垃圾的速度一定会指数级增长。"

前百度产品委员会主席宋健表示：Sora 确实很牛，但如果认为三年后就没人拍视频了，抖音 Tiktok 会被很快颠覆，那还是为时过早。

" 从平台的角度，抖快视频号本质上还是以视频为载体的社交平台，特效甚至视频化本身只是个形式。做产品的肯定知道从零建一个社交平台到底有多难，需要天时地利人和，技术只是其中的变量之一。此外，生成式视频的信息量不如真实拍摄大。比如一个 30 岁的男人和一个 20 岁的女人对话，表达、语气、表情的背后都是他们积累了 50 年的数据总和。这些是生成式 AI 当前无法替代的。而且用户对这些细节很敏感。"

宋健认为，如若希望借助 Sora 这种视频生成式技术，把视频行业变成一个 " 人纯粹消费机器工业化内容 " 的局面，这恐怕没戏。但如果说，通过借助新技术，让人和人之间产生新的连接，激活新的创作产能，这是有戏的。但也得尊重行业规律，日拱一卒地通过 " 技术 " 迭代 " 生态 "，而不是直接把技术强怼给用户。

▍有望缩短实现通用人工智能的时间

360 集团创始人周鸿祎也表示，今天 Sora 可能给广告业、电影预告片、短视频行业带来巨大的颠覆，但速度不一定那么快。

"AI 不一定那么快颠覆所有行业，但它能激发更多人的创作力。很多人谈到 Sora 对影视工业的打击，我倒不觉得是这样，因为机器能生产一个好视频，但视频的主题、脚本和分镜头策划、台词的配合，都需要人的创意至少需要人给提示词。一个视频或者电影是由无数个 60 秒组成的。今天 Sora 可能给广告业、电影预告片、短视频行业带来巨大的颠覆，但它不一定那么快击败 TikTok，更可能成为 TikTok 的创作工具。"

周鸿祎认为，大语言模型的厉害之处在于，能完整地理解这个世界的知识。而此前所有的文生图、文生视频都是在 2D 平面上对图形元素进行操作，并没有适用物理定律。

" 这次很多人从技术上、从产品体验上分析 Sora，强调它能输出 60 秒视频，保持多镜头的一致性，模拟自然世界和物理规律，实际这些都比较表象。最重要的是 Sora 的技术思路完全不一样。Sora 产生的视频里，它能像人一样理解坦克是有巨大冲击力的，坦克能撞毁汽车，而不会出现汽车撞毁坦克这样的情况。"

周鸿祎认为，这也代表未来的方向。有强劲的大模型打底子，基于对人类语言的理解，对人类知识和世界模型的了解，再叠加很多其他的技术，就可以创造各个领網域的超级工具。

" 比如生物医学蛋白质和基因研究，包括物理、化学、数学的学科研究上，大模型都会发挥作用。这次 Sora 对物理世界的模拟，至少将会对机器人具身智能和自动驾驶带来巨大的影响。原来的自动驾驶技术过度强调感知层面，而没有工作在认知层面。其实人在驾驶汽车的时候，很多判断是基于对这个世界的理解。比如对方的速度怎么样，能否发生碰撞，碰撞严重性如何，如果没有对世界的理解就很难做出一个真正的无人驾驶。"

周鸿祎预测，Sora 的出现，或意味着 AGI（通用人工智能）实现将从 10 年缩短到 1 年。

"OpenAI 训练这个模型应该会阅读大量视频。一旦人工智能接上摄像头，把所有的电影都看一遍，把 YouTube 上和 TikTok 的视频都看一遍，对世界的理解将远远超过文字学习，一幅图胜过千言万语，而视频传递的信息量又远远超过一幅图，这就离 AGI 真的就不远了，不是 10 年 20 年的问题，可能一两年很快就可以实现。

▍多模态大模型将成为生成式 AI 的重点发展方向

随着文生图、图片对话技术的成熟，文生视频已成为多模态大模型下一步发展的重点。展望 2024 年，机构人士认为，大模型领網域的竞争将进一步白热化，多模态大模型将成为生成式 AI 的重点发展方向，并有望推动本轮 AI 行情进一步扩散。

在国盛证券看来，AI 文生视频是多模态应用的下一站。文生视频即根据给定的文字提示直接生成视频。随着文生视频技术的日趋成熟和广泛应用，或将为当下热门的短剧市场带来变数。该技术有望极大降低短剧制作的综合成本，为解决 " 重制作而轻创作 " 的共性问题提供解决方案，短剧制作的重心有望回归高质量剧本创作。

中信证券表示，多模态大模型算法的突破将带来自动驾驶、机器人等技术的革命性进步，持续看好本轮生成式 AI 浪潮对科技产业的长周期影响和改变，继续关注算力、算法、数据、应用等环节的领先厂商。

东吴证券判断，多模态是 AI 商业宏图的起点，有望真正为企业降本增效，且企业可将节省下来的成本用于提高产品、服务质量或者技术创新，推动生产力进一步提升；同时，也可能出现新的、空间更大的用户生成内容平台。