全球首个多模态世界模型Emu3来了！智源王仲远：为多模态大模型训练范式指明新方向

今天小编分享的汽车经验：全球首个多模态世界模型Emu3来了！智源王仲远：为多模态大模型训练范式指明新方向，欢迎阅读。

智源 Emu3 生成的 AI 视频案例

全球首个原生多模态世界模型来了。

钛媒体 App 获悉，10 月 21 日，北京 AI 领網域新型非营利研究机构北京智源人工智能研究院（以下简称 " 智源研究院 "，BAAI）发布采用了自回归（autoregressive）技术路线的原生多模态世界模型 Emu3，并同步上线技术文档、开源关键技术等供产业界进一步探索。

据悉，Emu3 参数量为 8B（80 亿），只基于下一个 token（输入数据的基本部門）预测，无需扩散模型或组合式方法，把影像、文本和视频编码为一个离散空间，在多模态混合序列上从头开始联合训练一个 Transformer 模型。该模型实现了视频、影像、文本三种模态的统一理解与生成，传统模型则只能处理一种类型。而在影像生成、视觉语言理解、视频生成任务中，Emu3 的表现超过了影像生成模型 Stable Diffusion SDXL 、视觉语言理解模型 LLaVA、视频生成模型 OpenSora 等国内外主流开源模型，展示了国际领先的 AI 技术。

智源研究院院长王仲远向钛媒体 App 等表示，Emu3 证明了下一个 token 预测能在多模态任务中有高性能的表现，这为构建多模态 AGI 提供了广阔的技术前景。Emu3 有机会将基础设施建设收敛到一条技术路线上，为大规模的多模态训练和推理提供基础，这一简单的架构设计将利于产业化。未来，多模态世界模型将促进机器人大腦、自动驾驶、多模态对话和推理等场景应用。

王仲远强调，行业一定会有一个统一的多模态模型。

" 智源会坚持做原始创新。我们认为原生大一统的多模态大模型，是整个大模型发展技术路线上必须要去攻克的一个技术方向。Emu3 是全球首个基于该技术路线的原生多模态世界模型，并面向国际社区进行了开源。" 王仲远坦言，中国在大模型的技术路线上要有自己的核心技术，而 Emu3 能为多模态大模型训练范式指明新的方向。

影像文本视频大一统，王仲远：原生多模态世界模型处在 "GPT-3 时刻 "

智源研究院成立于 2018 年 11 月，是全球最早开展 AI 大模型的中国非营利性新型研究机构，也是北京市继腦科学与类腦研究中心、量子信息科学研究院之后，着力建设的又一个重要的新型研发机构。

智源研究院为了加快 AI 前沿技术落地，围绕大模型、类腦脉冲芯片、认知知识图谱、安全人工智能、疾病腦电、智能信息处理等领先技术的成熟化、工程化建立创新中心，推动 AI 原创成果转化及产业化。

2024 年 2 月，智源研究院宣布王仲远博士担任新任院长，全面负责研究院各项工作。在此之前，王仲远在 AI 学术及产业领網域深耕长达 15 年以上，曾在微软、Facebook（现 Meta）、美团、快手等多家头部公司任职过。

Emu3 所使用的自回归技术路线的核心思想是利用序列数据中的上下文依赖性来预测未来的数据点。该类型模型中，不同模态数据共享同一套参数，可实现跨模态的关联和生成，无需人工设计的特征工程。同时因自回归技术路线的特点，在生成数据时模型必须按顺序进行，限制了并行计算的能力，导致生成速度较慢。也会遇到长期依赖问题，即模型难以捕捉序列中较远距离的依赖关系。

所谓 " 世界模型 " 是目前技术流派中难度最高的一种，其特点在于让机器能够像人类一样对真实世界有一个全面而准确的认知，不仅包括对事物的描述和分类，还包括对事物的关系、规律、原因和结果的理解和预测，从而进行推理和决策，而 " 世界模型 " 也被认为是通往 AGI 的最优解。

同期，谷歌与麻省理工学院（MIT）何恺明团队联合推进了一个新研究项目，推出名为 Fluid 的影像自回归模型，采用连续 token 生成方式和随机顺序生成单张图片；图灵奖得主、Meta 首席 AI 科学家杨立昆（Yann LeCun）领导的 Meta AI 团队曾推出 V-JEPA 世界模型，一种通过观看视频来教机器理解和模拟物理世界的方法；李飞飞提到的所谓 " 空间智能 " 也是世界模型的一种技术方向；而在国内，智源研究院也率先推出自回归路线多模态世界模型 Emu3。

王仲远认为，Emu3 的发布意味着大模型能够通过更多维度的数据来理解、学习真实世界。

具体来看，根据智源研究院 9 月底发布的技术报告，Emu3 模型参数量为 80 亿，包括了文字、图片和视频原始数据，并将视觉数据 Token 化从而在统一的架构下进行训练，可以生成文字、多样化风格的图片和最长为 5 秒的视频，并且能持续预测下一个 Token 词元。

评测结果显示，英文提示词下，该模型图片生成得分为 70.0 分，领先于 Stability AI 于 2023 年 7 月推出的 SDXL 的 66.9，落后于 OpenAI 于 2023 年 8 月推出的 DALL E3 的 73.4 分；文生视频得分则为 81.0 分，领先于今年 6 月开源的 OpenSora 1.2 的 79.6 分；语言能力，技术报告未提供相关测评数据，主要由于 Emu3 语言类数据占比小，参数远小于市面上其他的语言大模型，因此目前语言能力并不在第一梯队，但 Emu3 模型词汇量达 184622，上下文长度达到 131072，具有很多语言模型的技术能力。

王仲远认为，目前采用自回归架构构建统一的多模态世界模型仍处在应用爆发前的 "GPT-3 时刻 "，如今的多模态领網域还处于非常早期，因此 Emu3 只是在前沿技术层面证明了该路线的可能性，未来仍需和产业界合作进一步扩大训练规模，并将 Emu3 推向大众能够触及的应用。

算力、数据、生态仍是当前多模态世界模型的挑战

事实上，近期关于 "OpenAI 研发的 AI 模型技术是否是未来通用人工智能（AGI）的方向 " 争议颇多。其中，苹果公司内部员工承认 " 生成式 AI 技术落后竞品两年以上 "，外部直接质疑 OpenAI o1 的 AI 推理能力较差，无法解决部分小学数学题内容；而杨立昆则直言，今天的 AI 大模型比猫还笨，甚至认为 Sora 并不能真的理解物理世界，这样的视频生成与世界模型的因果预测仍然存在巨大差异。

对此，王仲远向钛媒体 App 坦言，他部分认同杨立昆的说法，确实需要多模态世界模型通往 AGI 目标，但不一定要借鉴生物大腦设计多个可以类比的自主性 AI 系统子功能模块这种方案。

" 杨立昆提的关于现在大模型比猫还笨，很重要的一个论点是他认为纯语言模型无法抵达 AGI。我们也认为纯语言模型是不够的，因为仅从文本层面无法完全理解世界。事实上，一些科学家，包括谢赛宁博士，在尝试通过视觉信号直接触发智能能力的技术路线。语言是重要的，但只有语言是不够的。如果要理解感知、推理这个世界，首先要看得到、感觉到世界，才能把不同模态的信息进行互動理解。这恰恰是 Emu3 统一多模态技术路线的重要贡献。但另一方面，对于杨立昆提出来仿照人腦设计自主 AI 系统模块，我认为应该永远鼓励和支持不同的技术路线的探索，统一多模态世界模型就是其一。" 王仲远表示。

Keras 之父 Francois Chollet 也认为，大模型通过提示使用时，无法理解与训练数据中情况大相径庭的情况，因此不具备通用智能，而大模型的主要作用是作为实际 AGI 的知识和程式存储，它们是一种记忆形式，而智能不仅仅是记忆。

不过，当前 Emu3 这种原生多模态世界模型依然存在诸多 " 局限性 "，比如整个训练数据规模不够大，低于 Emu2 的 370 亿参数和人类的 860 万亿 -1000 万亿神经元规模，使得语言效果无法达到 GPT-o1 水平；算力规模不够大，目前智源的 AI 异构算力平台与行业最大规模的算力集群规模依然有一定距离；另外，当前世界模型路线没有生态和实践者，亟待更多企业和大公司进行商业落地，从而验证这条路线的正确性。

" 我们需要更多资源，例如，Emu3 参数扩大 10 倍所需的算力、工程化的能力是指数级增加的，所以需要合作伙伴和我们一起训练下一代的模型。" 王仲远对钛媒体 App 表示。

谈及预训练大模型不再训练时，王仲远强调，在技术路线收敛的趋势下，厂商会更积极地探索模型的落地场景。从乐观的角度来看，说明基础大模型已经达到一定的能力水平。另从谨慎的角度来说，训练转推理说明仅靠市场驱动，会令厂商陷入 " 追随者 " 的境地，不利于原始技术创新。

" 我们一直强调智源的定位，是做原始创新，做企业不愿意做，高校做不了的事情，所以这使得我们必须做下一代 AI 技术探索，做未来 3 年 -5 年可能被行业认可的技术路线。在多模态方向上，智源需要为整个行业指明一个方向。" 王仲远称。

以下是智源研究院团队与钛媒体 App 等部分对话交流整理：

问：相比 Emu 2，Emu3 模型参数量减少，幻觉会不会更严重？

智源研究院：首先简单介绍 Emu3 和 Emu 2 的技术区别。Emu2 视觉用的还是 embedding 的方式，Emu3 变成了离散的 token。Emu1，Emu 2 是概念验证加探索迭代。当时用了预训好的语言模型和扩散的 decoder，快速验证统一的生成式是否能走通，智源是国际上最早做的探索。因为不需要训练语言模型，基于已有的，成本会比较低。Emu3 我们是完全从头训练，是为视频影像文本原生多模态设计的。

问：Emu3 视频好像最多 5 秒 24 的 FPS，这与其他预测模型的区别？

智源研究院：下一个 token 天然的好处是本身就可以续写，看到前面的 token 预测后面的 token，可以无限续下去。只是如果在一个场景续写，看到的长视频都是一个场景，意义不大。现在整体的续写能力还没有突破长的有情节的视频生成。Emu3 这套框架的独特优势就是因果性，可以基于前面发生的事情预测后面发生的事情，而不是基于一堆噪声去想象。Emu3 现在可以 5 秒一直续写。

问：有没有计划在科学计算上的应用？

智源研究院：AI for Science 多模态是非常必须的。GPT 3 到 ChatGPT 花了两年半的时间，Emu3 好比当年的 GPT3，Emu3 是一个中间的 milestone（里程碑），下一个期待类似 ChatGPT 的的 milestone。

问：智源未来三到五年之内的重点是什么？

智源研究院：继续研发原生多模态世界模型 Emu 系列，解决更大规模的数据、算力以及训练。统一多模态基座大模型是人工智能进入到物理世界非常重要的基座。多模态具身大腦也是研究院正在做的研究。今年我们也看到了诺贝尔的物理学奖给了 Hinton 教授，化学奖是给了 DeepMind 团队。AI for Science 也是智源非常关注的重要研究方向。

问：从 To C 端角度来说，APP 肯定是最好的方式，智源未来有没有计划和一些其他合作伙伴推出一些 c 端 APP？

智源研究院：当前市场上的语言模型 APP 已经开始基于百亿模型在使用，这个前提是有了千亿、万亿模型，达到更高的性能，百亿模型效果随之更好。而现在，多模态大模型还在不断探索能力上限。智源探索出了 Emu3 这样一条技术路线，那么接下来需要展示，也期待在多模态领網域的 "ChatGPT" 的时刻。

我想再一次强调 Emu3 架构的优越性，将来多模态大模型都能够非常容易使用，这是 Emu3 模型的意义。

（本文首发于钛媒体 App，作者｜林志佳，编辑｜胡润峰）