今天小编分享的互联网经验:智源的压轴模型:370亿参数“开源版Gemini”,能理解乱序图文输入,还能生成视频,欢迎阅读。
从 OpenAI 的 GPT-4V 到谷歌的 Gemini,逼着 AI 写诗的人少了,多模态大模型(MLLM)成了新的香饽饽。一篇关于多模态大模型的综述很好的概括了其相比于 LLM 的优越:
· MLLM 更符合人类感知世界的方式。作者人类自然地接受多感官输入,这些输入往往是互补和合作的。因此,多模态信息有望使 MLLM 更加智能;
· MLLM 提供了一个更用户友好的界面。得益于多模态输入的支持,用户可以以更灵活的方式与智能助手进行互動和交流;
· MLLM 是一个更全面的任务解决者。虽然 LLM 通常可以执行 NLP 任务,但 MLLM 通常可以支持更大范围的任务。
于是相比于纯粹的 Coding 能力,人们更期待 AI 能直接把一个白板上的数学公式变成代码,能拆解一张复杂的电路图并且变成一份组装说明,甚至能自己给一段足球视频配上解说。
近日,智源研究院发布了新一代的多模态基础模型—— Emu2。
论文地址:https://arxiv.org/abs/2312.13286
以智源人工智能研究院的总工程师林咏华的话来说,这个瞩目的开源项目是智源视觉大模型团队的 " 年度压轴 "。
今年 8 月,智源研究院提出了一种新的多模态大模型训练范式,发布并开源了首个打通从多模态输入到多模态输出的统一多模态预训练模型 Emu。Emu 发布 4 个月,在 GitHub 上积累了 720 颗星,而此次 Emu2 发布不到一周就收获了 300 颗星,这个项目现在的星标已经过千。
图源:GitHub
相较 2023 年 7 月发布(8 月开源)的第一代「多模态 to 多模态」Emu 模型,Emu2 使用了更简单的建模框架,训练了从编码器语义空间重建影像的解码器、并把模型规模化到 37B 参数实现模型能力和通用性上的突破。
值得一提的是,Emu2 是目前最大参数的开源生成式多模态模型。
它在大规模多模态序列上延续采用大量图、文、视频的序列,进行了统一的自回归目标训练,将影像、视频等模态的 token 序列直接和文本 token 序列交错在一起输入到模型中训练。从模型表现上来看,Emu2 展示了强大的多模态上下文学习能力,甚至能够解决需要即时推理的任务,如视觉提示和基于对象的生成。在少样本設定下,Emu2 在多个多模态理解任务中创造了新的记录。
图源:智源研究院
智源研究院的测试结果显示,Emu2 在少样本多模态理解任务上大幅超越 Flamingo-80B、IDEFICS-80B 等主流多模态预训练大模型,在包括 VQAv2、OKVQA、MSVD、MM-Vet、TouchStone 在内的多项少样本理解、视觉问答、主体驱动影像生成等任务上取得最优性能。
而当根据特定指令进行调整时,Emu2 在大型多模态模型的问题回答基准测试和开放式主题驱动生成等具有挑战性的任务上进一步实现了新的最佳状态。
基于 Emu2 微调的 Emu2-Chat 和 Emu2-Gen 模型分别是目前开源的性能最强的视觉理解模型和能力最广的视觉生成模型。Emu2-Chat 可以精准理解图文指令,实现更好的信息感知、意图理解和决策规划。Emu2-Gen 可接受影像、文本、位置交错的序列作为输入,实现灵活、可控、高质量的影像和视频生成。
这些成就表明 Emu2 可以作为基础模型和通用接口,服务于广泛的多模态任务。代码和模型已公开,以促进未来的研究。目前 Emu2 的模型、代码均已开源,并提供 Demo 试用。
强势的理解和生成能力
通过对多模态理解和生成能力的定量评测,Emu2 在包括少样本理解、视觉问答、主体驱动影像生成在内的多个任务上取得最优性能。在少样本评测上,Emu2 在各个场景下显著超过 Flamingo-80B,例如在 16-shot TextVQA 上较 Flamingo-80B 超过 12.7 个点。
图源:智源研究院
经过指令微调的 Emu2 可以对影像和视频输入进行自由问答,以统一模型在 VQAv2、OKVQA、MSVD、MM-Vet、TouchStone 等十余个影像和视频问答评测集上取得最优性能。
图源:智源研究院
在零样本的 DreamBench 主体驱动影像生成测试上,Emu2 在较此前方法取得显著提升,在视觉上更接近于真实影像,以及在主题和风格上的多样性和创造性。例如比 Salesforce 的 BLIP-Diffusion 的 CLIP-I 分数高 7.1%, 比微软的 Kosmos-G 的 DINO 分数高 7.2%。
DreamBench 是一个用于评估文本到影像生成模型的基准测试,它包含了多种类型的影像编辑任务,如重新上下文化、风格化、修改、区網域可控生成和多实体组合等。
Emu2-Gen 在 DreamBench 上展示了其在零样本設定下的多模态生成能力。它能够接受文本、位置和影像的混合输入,并在上下文中生成影像。Emu2-Gen 在 DreamBench 上的表现表明了其在多模态生成任务中的优越性能,比如它能够根据单一影像输入重建主体,并在零样本設定下通过强大的视觉解码能力展示出色的主体忠实度。
主体忠实度(subject fidelity)是一个衡量影像生成模型在生成影像时保持输入影像中主体特征准确性的指标。在影像编辑或生成任务中,如果模型能够准确地保留或重现输入影像中的主体元素,如人物、动物、物体等,那么就可以认为模型具有高主体忠实度。
图源:智源研究院多模态上下文学习
上下文学习能力是 LLM 涌现出的重要能力之一,而当我们谈论多模态大模型时,ICL 也就扩展到了多模态 ICL(M-ICL)。
生成式预训练完成后,Emu2 具备全面且强大的多模态上下文学习能力。关于 Emu2 的论文中展示了几个例子,模型可以照猫画虎的完成对应理解和生成任务。例如在上下文中描述影像、在上下文中理解视觉提示(覆盖影像上的红圈)、在上下文中生成类似风格的影像、在上下文中生成对应主体的影像等。
图源:智源研究院
值得一提的是,在训练过程中 Emu2 使用了多样化的数据集,包括影像 - 文本对、视频 - 文本对和交错的影像 - 文本数据。这种数据的多样性有助于模型学习到更广泛的多模态表示,并提高其在不同任务上的适应性。而通过平均池化将影像分割成小块并与文本标记交错的方法,Emu2 的模型结构得以简化,并提高了效率。
强大的看图说话能力
下面来谈谈 Emu2-Chat。
Emu2-Chat 的设计目标是成为一个能够进行多模态对话的智能体,也是目前我们能够理解的最熟悉的多模态大模型的形态。经过对话数据指令微调的 Emu2-Chat,可以精准理解图文指令、更好的完成多模态理解任务。
比如它可以分辨多边形:
图源:智源研究院
读机场指引:
图源:智源研究院
甚至可以评估一场车祸的严重程度:
图源:智源研究院 Emu2-Gen 的影像生成有惊喜
经过高质量影像微调的 Emu2-Gen,可以接受影像、文本、位置交错的序列作为输入,生成对应的高质量影像,这样的灵活性带来高可控性。例如,生成指定位置、指定主体的熊和向日葵:
图源:智源研究院
生成指定位置、指定主体、指定风格的宠物狗和小鸸鹋的合影影像:
图源:智源研究院
更多的根据图文序列生成的例子:
图源:智源研究院甚至可以生成视频了
进一步的,Emu2 支持基于任意 prompt 序列的视频生成。
具体来说,Emu2 通过训练一个基于扩散模型的视频解码器来生成视频。这个解码器是在一个扩散模型框架内进行训练的,它能够将视觉编码器处理影像后得到的连续向量表示解码为视频帧序列,这种训练方法允许模型在不依赖语言模型的情况下,学习如何将视觉信息转换为连续的视频帧。
基于文本、图文交错、图文位置交错的序列,Emu2 可以生成对应的高质量视频。
图源:智源研究院
这份新年礼物,AI 爱好者们觉得怎么样呢?
* 参考资料:
Generative Multimodal Models are In-Context Learnershttps ,arxiv.org/abs/2312.13286
《Emu2:新一代生成式多模态模型》,智源研究院