融合ChatGPT+DALL·E 3，贾佳亚团队新作开源畅玩：识图推理生图一站解决

今天小编分享的科学经验：融合ChatGPT+DALL·E 3，贾佳亚团队新作开源畅玩：识图推理生图一站解决，欢迎阅读。

允中发自凹非寺

量子位 | 公众号 QbitAI

在开源社区中把 GPT-4+Dall · E 3 能⼒整合起来的模型该有多强？

香港中文大学终身教授贾佳亚团队提出多模态模型Mini-Gemini：

更高清影像的精确理解、更高质量的训练数据、更强的影像解析推理能力，还能结合影像推理和生成，堪称王炸。

Mini-Gemini 还提供了 2B 小杯到 34B 的超大杯，最强模型在多个指标上相比谷歌的 Gemini Pro 甚至 GPT-4V 都不遑多让。

目前，Mini-Gemini从代码、模型到数据已全部开源，登上了 PaperWithCode 热榜。

Mini-Gemini线上 Demo 也已发布，超会玩梗，一起来体验下！

接近商业闭源模型水平

Mini-Gemini Demo 放出后受到广大网友关注，一番 " 品尝 " 后，他们认为 Mini-Gemini 跟商业模型差不了多少。

目前，绝大多数多模态模型仅支持低分辨率影像输入和文字输出，而在实际场景中，许多任务都需要对高清影像进行解析，并用影像的形式进行展现。

如下图所示，Mini-Gemini 不仅能够根据图片对做面包的过程进行手把手教学，也能够准确将不同电腦品种根据图片中的各种参数进行对比。

有网友开玩笑说，这下妈妈不用担心我独自生活了。

更重要的是，Mini-Gemini 在保留超强的影像理解和推理能力的同时，还解锁了影像的生成能力，就如同 ChatGPT 和生成模型的结合。

下面，让我们通过几个例子来更直观地感受这种能力：

还记得 Google Gemini 的官方演示视频么？当用户给出两个毛线团并问出能用它们做什么时，Gemini 可以识别出图片内容并给出相应的建议。

当我们把相似的输入给到 Mini-Gemini，它会怎么回答呢？

可以发现，Mini-Gemini 也可以识别出图片中的元素，并且合理地建议，同时生成了一只对应的毛线小熊。

通过一些抽象的多模态指令来让模型给出推理，并生成合适的图片，这个操作就很像是 ChatGPT 和 DALL · E 3 的联动了。‍

接下来让 Mini-Gemini 做自己最擅长的推理和图片理解，看看它表现：

比如理解图片中的矛盾点并举一反三——输入冰川中的仙人掌，它会解释其中的矛盾并生成一张热带雨林中北极熊的图片：

图片呈现了仙人掌的典型栖息地与冰的存在之间的视觉矛盾，因为在沙漠环境中自然不会出现冰。这种矛盾的类似例子可能是一只北极熊出现在热带雨林中，因为北极熊适应于寒冷、覆盖着冰的环境，在炎热潮湿的气候中无法生存。这种并置创造了一个引人注目且超现实的视觉效果，挑战观众的期待，并可能引发人们对气候变化、环境适应或不同生态系统融合的思考。

同时，正如 ChatGPT+DALL · E 3 的梦幻结合一样，Mini-Gemini 的 " 推理生成 " 功能还可以在多轮对话中通过简单指令生成连环小故事。

比方说，让它根据用户输入讲一个贵族小老鼠的故事，Mini-Gemini 会根据前文的文字生成结果和用户输入进行推理，在保持一致性的情况下对图片进行修改，使其更符合用户的要求。