Meta大动作！开源多感官AI模型，不仅能看会听，还能“感知温度”

今天小编分享的互联网经验：Meta大动作！开源多感官AI模型，不仅能看会听，还能“感知温度”，欢迎阅读。

前段时间，带着开源模型 LlaMA" 杀的 " 谷歌和微软 " 措手不及 " 的 Meta，又一次在 AI 战场上丢下了一颗重磅炸弹。

今天，Meta 重磅开源了多感官 AI 模型 ImageBind（https://github.com/facebookresearch/ImageBind）。以视觉为核心，结合文本、声音、深度、热量（红外辐射）、运动（惯性传感器），最终可以做到 6 个模态之间任意的理解和转换。

这也是第一个能够整合六种类型数据的 AI 模型。

如何让 AI 以更接近人类的方式理解这个世界 ? ——也让 AI 拥有多种感官，学会 " 腦补 "。

一张大海的照片可以让我们的腦海里响起海浪的声音，回忆起海边腥咸的味道。当我们听到瀑布声，腦海里便会浮现恢弘的瀑布奇观。

Meta 指出，未来还将有其他可以被添加到模型中的感官输入流，包括 "触摸、讲话、气味和大腦 fMRI（功能性磁共振成像）信号"。

与此同时，ImageBind 还可以进行跨模态检索，如火车喇叭音频，文本、深度、图片和视频。

尽管目前 ImageBind 只是一个研究项目，但它展示了未来人工智能生成多感官感知的可能性，或许也使 Meta 的元宇宙梦更近了。

Meta 在论文中解释称，他们把不同模态数据串联在了一个嵌入空间（Embedding Space），让其从多维度理解世界。

有网友评价道，imageBind 的出现使 AI 发展过程中又迎来了激动人心的时刻：

" 这项创新为 AI 搜索能力、沉浸式 VR 体验和更高级的 AI 技术铺平了道路。对于 AI 爱好者和专业人士来说，激动人心的时刻即将到来！"。

有网友评论称，ImageBind 的诞生就是为了模拟人类感知。ImageBind 面世，贾维斯也不远了。

英伟达科学家 Jim Fan 点评道：自 LLaMA 以来，Meta 就在开源领網域大放异彩。

不过，对于 Meta 开源大模型的做法，也有人提出了质疑。如 OpenAI 便表示，这种做法对创作者有害，竞争对手可以随意复制且可能具有潜在的危险，允许恶意行为者利用最先进的人工智能模型。

更接近人类感知的元宇宙？

相比 Midjourney、Stable Diffusion 和 DALL-E 2 这样简单的将文字与影像配对的生成器，ImageBind 试图让 AI 更接近人类的思考和感知方式：

可以连接文本、影像 / 视频、音频、3D 测量（深度）、温度数据（热）和运动数据（来自 IMU），且它无需先针对每一种可能性进行训练，直接预测数据之间的联系，类似于人类感知或想象的方式。

这个模型利用到了影像的绑定（binding）属性，只要将每个模态的嵌入与影像嵌入对齐，就会实现所有模态的迅速对齐。

简单来说就是影像成为了连接这些模态的桥梁。

例如 Meta 利用网络数据将文本与影像连接起来，或者利用带有 IMU 传感器的可穿戴相机捕捉到的视频数据将运动与视频连接起来。

Meta 在论文中指出，ImageBind 的影像配对数据足以将这六种模态绑定在一起。

模型可以更全面地解释内容，使不同的模态相互 " 对话 "，并找到它们之间的联系。

例如，ImageBind 可以在没有一起观察音频和文本的情况下将二者联系起来。这使得其他模型能够 " 理解 " 新的模态，而不需要任何资源密集型的训练。

具体而言，ImageBind 利用网络规模（影像、文本）匹配数据，并将其与自然存在的配对数据（视频、音频、影像、深度）相结合，以学习单个联合嵌入空间。

这样做使得 ImageBind 隐式地将文本嵌入与其他模态（如音频、深度等）对齐，从而在没有显式语义或文本配对的情况下，能在这些模态上实现零样本识别功能。

与此同时，Meta 表示，ImageBind 可以使用大规模视觉语言模型（如 CLIP）进行初始化，从而利用这些模型的丰富影像和文本表示。因此，ImageBind 只需要很少的训练就可以应用于各种不同模态和任务。

如果与其他 AI 结合，还可以做到跨模态的生成。

比如听到狗叫画出一只狗，同时给出对应的深度图和文字描述。

甚至还做到不同模态之间的运算，如鸟的影像 + 海浪的声音，得到鸟在海边的影像。

对此，Meta 在其官方博客中也说道，"ImageBind 可以胜过之前为一种特定模式单独训练的技术模型。但最重要的是，它能更好地一起分析许多不同形式的信息，从而推进人工智能的发展。"

Meta 团队认为，ImageBind 为设计和体验身临其境的虚拟世界打开了大门。或许也让 Meta 离幻想中的元宇宙世界更近了一步。

可以怎么搜？

模型具体可以怎么用？Meta 开放了模型演示，具体包括：

使用影像检索音频

以影像或视频作为输入，可以生成音频。比如选择一张小狗的图片，就能够检索到狗吠的音频。

使用音频检索影像

通过一个音频片段，给出一张对应的图。听着鸟鸣，小鸟的图片便出现了。

使用文本来检索影像和音频

选择下面的一个文本提示，ImageBind 将检索与该特定文本相关的一系列影像和音频片段。

使用音频 + 影像来检索相关影像

给一段狗叫声再加一张海滩的图片。ImageBind 可以在几分钟内检索出相关影像。

得到了一张 " 狗望海 " 的图：

使用音频来生成影像

要想实现音频生影像，ImageBind 需要和其他模型一起结合用，比如 DALL-E 2 等生成模型。

来个下雨哗啦啦的声音，身在其中的意境图就来了。

ImageBind 的性能有多卓越？——打败专家模型

在 Meta 研究科学家于近期发布的题为《IMAGEBIND: 一个嵌入空间绑定所有模态》（《IMAGEBIND： One Embedding Space To Bind Them All》https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf）的论文中指出，ImageBind 模型的第一大优势在于，仅通过很少的样本及训练，模型性能便可提高：

此前，往往需要收集所有可能的配对数据组合，才能让所有模态学习联合嵌入空间。

ImageBind 规避了这个难题，它利用最近的大型视觉语言模型，将零样本能力扩展到新的模态。

Meta 的模型具有小模型所不具备的出色能力，这些性能通常只会在大模型中才会呈现。比如：音频匹配图片、判断照片中的场景深度等等。

Meta 的研究表明，视觉模型越强，ImageBind 对齐不同模态的能力就越强。

在实验中，研究人员使用了 ImageBind 的音频和深度编码器，并将其与之前在 zero-shot 检索以及音频和深度分类任务中的工作进行了比较。

结果显示，ImageBind 可以用于少量样本的音频和深度分类任务，并且优于之前定制的方法。

而以影像 / 视频为中心训练好 AI 后，对于原始数据中没有直接联系的模态，比如语音和热量，ImageBind 表现出涌现能力，把他们自发联系起来。

在定量测试中，研究人员发现，ImageBind 的特征可以用于少样本音频和深度分类任务，并且可以胜过专门针对这些模态的先前方法。

在基准测试上，ImageBind 音频和深度方面优于专家模型

比方说，ImageBind 在少于四个样本分类的 top-1 准确率上，要比 Meta 的自监督 AudioMAE 模型和在音频分类 fine-tune 上的监督 AudioMAE 模型提高了约 40% 的准确率。

Meta 希望，AI 开发者社区能够探索 ImageBind，来开发其可以应用的新途径。

Meta 认为，关于多模态学习仍有很多需要探索的地方。ImageBind 这项技术最终会超越目前的六种 " 感官 "，其在博客上说道，" 虽然我们在当前的研究中探索了六种模式，但我们相信引入连接尽可能多的感官的新模式——如触觉、语音、嗅觉和大腦 fMRI 信号——将使更丰富的以人为中心的人工智能模型成为可能。"