今天小编分享的科技经验:Meta 推出 V-JEPA 模型,利用 AI 高效补充视频受遮蔽部分,欢迎阅读。
IT 之家 2 月 17 日消息,Meta 首席 AI 科学家 Yann LeCun 在 2022 年推出了 JEPA(Joint Embedding Predictive Architectures)模型架构,次年基于 JEPA 架构开发了一款 "I-JEPA" 图片预测模型,目前又推出了一款名为 "V-JEPA" 的视频预测模型。
据介绍,相关 JEPA 架构及 I-JEPA / V-JPA 模型主打 " 预测能力 ",号称可以以 " 人类理解 " 的方式,利用抽象性高效预测生成图片 / 视频中被遮蔽的部分。
IT 之家注意到,研究人员使用一系列经过遮蔽处理的特定视频训练 I-JEPA / V-JEPA 模型,研究人员要求模型利用 " 抽象方式 " 填充视频中缺失的内容,从而让模型在填充间学习场景,进一步预测未来的事件或动作,进而达到对世界更深层次的理解。
▲ 图源 Meta 官方新闻稿(下同)
研究人员表示,这种训练方法能够让模型专注于影片的高层次概念,而 " 不会钻牛角尖处理下游任务不重要的细节 ",研究人员举例 " 人类观看内含树木的影片时,不会特别关心树叶的运动方式 ",因此采用这种抽象概念的模型,相对于业界竞品效率更佳。
研究人员同时提到,V-JEPA 采用一种名为 "Frozen Evaluations" 的设计结构,即 " 模型在预训练之后,核心部分不会再改变 ",因此只需要在模型之上添加小型专门层即可适应新任务,具有更高普适性。