融合ChatGPT+DALL·E 3，賈佳亞團隊新作開源暢玩：識圖推理生圖一站解決

今天小編分享的科學經驗：融合ChatGPT+DALL·E 3，賈佳亞團隊新作開源暢玩：識圖推理生圖一站解決，歡迎閲讀。

允中發自凹非寺

量子位 | 公眾号 QbitAI

在開源社區中把 GPT-4+Dall · E 3 能⼒整合起來的模型該有多強？

香港中文大學終身教授賈佳亞團隊提出多模态模型Mini-Gemini：

更高清影像的精确理解、更高質量的訓練數據、更強的影像解析推理能力，還能結合影像推理和生成，堪稱王炸。

Mini-Gemini 還提供了 2B 小杯到 34B 的超大杯，最強模型在多個指标上相比谷歌的 Gemini Pro 甚至 GPT-4V 都不遑多讓。

目前，Mini-Gemini從代碼、模型到數據已全部開源，登上了 PaperWithCode 熱榜。

Mini-Gemini線上 Demo 也已發布，超會玩梗，一起來體驗下！

接近商業閉源模型水平

Mini-Gemini Demo 放出後受到廣大網友關注，一番 " 品嘗 " 後，他們認為 Mini-Gemini 跟商業模型差不了多少。

目前，絕大多數多模态模型僅支持低分辨率影像輸入和文字輸出，而在實際場景中，許多任務都需要對高清影像進行解析，并用影像的形式進行展現。

如下圖所示，Mini-Gemini 不僅能夠根據圖片對做面包的過程進行手把手教學，也能夠準确将不同電腦品種根據圖片中的各種參數進行對比。

有網友開玩笑説，這下媽媽不用擔心我獨自生活了。

更重要的是，Mini-Gemini 在保留超強的影像理解和推理能力的同時，還解鎖了影像的生成能力，就如同 ChatGPT 和生成模型的結合。

下面，讓我們通過幾個例子來更直觀地感受這種能力：

還記得 Google Gemini 的官方演示視頻麼？當用户給出兩個毛線團并問出能用它們做什麼時，Gemini 可以識别出圖片内容并給出相應的建議。

當我們把相似的輸入給到 Mini-Gemini，它會怎麼回答呢？

可以發現，Mini-Gemini 也可以識别出圖片中的元素，并且合理地建議，同時生成了一只對應的毛線小熊。

通過一些抽象的多模态指令來讓模型給出推理，并生成合适的圖片，這個操作就很像是 ChatGPT 和 DALL · E 3 的聯動了。‍

接下來讓 Mini-Gemini 做自己最擅長的推理和圖片理解，看看它表現：

比如理解圖片中的矛盾點并舉一反三——輸入冰川中的仙人掌，它會解釋其中的矛盾并生成一張熱帶雨林中北極熊的圖片：

圖片呈現了仙人掌的典型栖息地與冰的存在之間的視覺矛盾，因為在沙漠環境中自然不會出現冰。這種矛盾的類似例子可能是一只北極熊出現在熱帶雨林中，因為北極熊适應于寒冷、覆蓋着冰的環境，在炎熱潮濕的氣候中無法生存。這種并置創造了一個引人注目且超現實的視覺效果，挑戰觀眾的期待，并可能引發人們對氣候變化、環境适應或不同生态系統融合的思考。

同時，正如 ChatGPT+DALL · E 3 的夢幻結合一樣，Mini-Gemini 的 " 推理生成 " 功能還可以在多輪對話中通過簡單指令生成連環小故事。

比方説，讓它根據用户輸入講一個貴族小老鼠的故事，Mini-Gemini 會根據前文的文字生成結果和用户輸入進行推理，在保持一致性的情況下對圖片進行修改，使其更符合用户的要求。