今天小编分享的财经经验:让自动驾驶「再次伟大」,Sora有这个本事吗?,欢迎阅读。
图片来源 @视觉中国
文 | 电车通
2024 年 2 月 16 日,OpenAI 宣布推出生成式人工智能模型 Sora,外界认为,这是 AI 视频生成的全新里程碑时刻。
仅需只言片语,Sora 就可以给你输出一段最长 60 秒的视频,并且能够全程保持高度的流畅性与稳定性,实现了对 Runway、Stable Video、Pika 等生成式 AI 的超越。值得一提的是,Sora 还能够根据静态影像扩展成一段视频或补充缺失的动态帧。
这几天,整个世界都在围绕着 AI 旋转,更先进的生成式 AI 出现,有人欢喜有人忧。
OpenAI 将 Sora 定位为模拟世界的视频生成模型,它的特性包含精确理解文本命令,生成长达 60 秒的高质量视频、模拟真实世界的物理规则,比如光影反射、运动方式、物理效果等、能够在单个视频当中生成同一对象的多个镜头,并且保持对象外观的高度一致。
这就意味着 AI 生成的视频距离「以假乱真」又近了一步。
另外,谷歌还宣布了下一代大模型 Gemini 1.5 Pro,将上下文視窗长度扩展到 100 万个 tokens,意味着它可以在短时间一次性处理巨量信息,比如 11 小时音频、一小时视频、超过 3 万行代码,又或者是超 70 万个单词。生成式 AI 在进步,AI 大模型的学习能力同样在突飞猛进。
真赋能也好,蹭热度也罢,一时间整个行业都在围着 AI 转,也在开始认真思考,更先进的 AI 技术能够为他们带来什么不一样的应用场景。
站在汽车行业的角度,Sora 等更超前的大模型,好像又有一些别样的玩法。
视频全靠「算」,车企的宣发费用全省了?
不久前,深蓝汽车更新了一条用 AI 生成的 G318 新车视频,视频中罗列了一系列 AI「想象中」的 G318,表示将借助 Sora 的能力,「拍摄」一段 G318 的新车视频,并抛出一个疑问—— AI 真的能拍出 G318 的美吗?
能不能「拍」出来暂且不得而知,截至本文发布时,深蓝汽车还未公布 Sora 眼中的 G318 究竟如何。但放眼汽车行业,尝试用大模型生成汽车视频的企业,确实屈指可数。小通还是很期待,AI 的生成质量,能否跟现有的专业拍摄工作流媲美。
车企的宣发工作十分频繁,为了造势吸引流量,测试车都不惜拿出来曝光。以深蓝 G318 为例,正式预热之前,官方已经发布多条曝光视频。不过这款车型已经通过工信部公示,距离上市不会太远。
宣发视频不像简单的海报宣传,涉及拍摄和动画制作等领網域,品牌方还需要外包给专业的团队来完成。一段视频从前期拍摄到后期合成处理,周期长,外包制作的成本也不低。但为了呈现尽可能好的「官方」效果,这些是车企宣发必须付出的成本。
如果能够凭借 Sora 的能力和想象力打造一段媲美实拍的宣发视频,那么 AI 可以说是对现有工作流的一种「打压」了。仅靠文字和图片,Sora 就能生成一段可用的宣发视频,省去一大笔外包费用,还缩短了物料交付的时间,我们似乎通过 Sora 看到了 AI 视频商用化的可能性。
当然,或许以后车企的新车官图,都可以用 AI 来解决了,场景合成效果可以做得更逼真,还省去了前期拍摄和后期的成本。
但问题就在于,Sora 生成的视频并非完美,无法准确判断常见的物理运动轨迹,主体与周围物体之间的比例还有提升空间,物体运镜连贯性有待提高。总体而言,Sora 生成的视频确实足够流畅逼真,但以现在的水平还无法完全取代专业团队的生产流程。
生产流的工作或许有一天会被 AI 取代,但人类的创意潜力是无穷的,这是人类与 AI 区别最大的地方。
不过,小通认为 Sora 的想象力不应该止步于艺术创作当中。作为真正意义上的「世界模型」,Sora 认知世界的能力,在高阶辅助驾驶以及未来的自动驾驶当中发挥更多作用。
智能汽车需要 Sora,但人类仍是「主角」
OpenAI 表示,Sora 在训练当中表现出了与其它模型不同的涌现能力,通过涌现学习到了物品的时间与空间的相关性,以及与周围世界互动的能力等。简单来说,Sora 不单止是拥有感知世界运行法则的能力,它还可以判断不同事物之间的关系,拥有发散思考的技能。
智能汽车当中的智能驾驶能力也是训练 AI 模型得出的结果。当前汽车智能驾驶分为感知、定位、决策、规划、控制几个模块,每个部分紧密配合,最终实现精确的智能驾驶。智能驾驶的不同模块,目前都需要单独训练,训练量庞大,研发人员要通过不断地「喂数据」优化迭代,所带来的沉没成本自然巨大。
360 董事长周鸿祎认为,原来的自动驾驶技术过于强调感知层面,而没有工作在认知层面。人在驾驶汽车的时候,很多判断都是基于对这个世界的理解,比如对方的速度、会否发生碰撞、碰撞的严重性如何。这就是当前智能驾驶与真人司机之间的区别。
但 Sora 对世界的感知和互動能力,并不是单纯的数据堆叠就能实现的。想要提高自动驾驶的研发和运行效率,人为优化迭代是必须,更重要的还是要让 AI 具备自主发散,缩短迭代周期,将互動能力赋能到现有的智驾模型当中,更接近人类的驾驶体验或许就此诞生。
此外,支撑计算的算力芯片,光是智能座舱、智能驾驶就需要多块单独的高性能 SoC 支撑,集中化程度欠缺,整车成本也下不来。无论是算力平台还是模块都趋向集中化和一体化,智能驾驶或许就不再抽成多个模块,而是将其当作一个整体。
再到智能底盘领網域,有些车企开发出了路面预判能力,通过提前建模判断路况,实时调整底盘工作状态。当前的工作模式还是先建模后再决策,本身存在一定的时间和过程,有时候并不能够像人类司机一样判断及时判断。
这一切,有了 Sora 的加入之后,智驾技术和智能座舱就能够跳出传统的训练模式。试想一下,如果 Sora 自己生成模拟现实世界的视频,再用来训练自动驾驶的能力,说不定比车企不断收集道路数据和视频训练来得更快,而且 Sora 的互動能力还有机会影响到现有的自动驾驶模型。
AI「生米煮成熟饭」,挑战与机遇并存
我们的想象力总会比 AI 更快一步,这就说明人类还无法完全被 AI 所替代。
现阶段的 AI 在各行各业表现出了令人意外的能力,大模型的出现更为企业提供了更多可能。不过我们对 AI 的态度或许不应该过于乐观,AI 还没走到最关键的商业化层面,很显然人类仍然是这个世界绝对的「主角」。
对于汽车行业而言,机遇和挑战并存,AI 的崛起为车企带来了降本增效的新突破口,但 AI 的潜力上限尚不可预知,当前的应用场景也不能代表 AI 的全部,想要完全利用,不是一件简单的事。
就好比智能手机的影像传感器,还没被打磨完成,就已经被厂商抛弃,造成浪费。
同时,要支撑庞大的 AI 运算和数据积累,车企的投入完全看不到底,比如头部厂商需要建立自己的数据中心。另外,先进大模型确实有利于汽车智能化发展,但这并不意味着车企能够高枕无忧,在算法投入上,车企之间的智能驾驶开发程度上仍然存在明显代查,模块化的智驾技术还没玩透,头部的端到端等潜在新赛道更是难以跟上。
到最后,AI 变成了巨头提升自身水平的「专属武器」,前者的能力越强,很可能会拉大不同厂商之间的代际差别,使得汽车行业头部化来得更猛烈。
无论如何,Sora 的潜力值得期待,不过这需要时间去发掘,谁也不敢保证 AI 接下来还能厉害到什么地步。