今天小編分享的科技經驗:大語言模型的視覺天賦:GPT也能通過上下文學習解決視覺任務,歡迎閲讀。
機器之心報道
編輯:小舟
LLM 的能力還可以發揮到機器學習的更多子領網域。
當前,大型語言模型(LLM)已經掀起自然語言處理(NLP)領網域的變革浪潮。我們看到 LLM 具備強大的湧現能力,在復雜的語言理解任務、生成任務乃至推理任務上都表現優異。這啓發人們進一步探索 LLM 在機器學習另一子領網域 —— 計算機視覺(CV)方面的潛力。
LLM 的一項卓越才能是它們具備上下文學習的能力。上下文學習不會更新 LLM 的任何參數,卻在各種 NLP 任務中卻展現出了令人驚豔的成果。那麼,GPT 能否通過上下文學習解決視覺任務呢?
最近,來自谷歌和卡内基梅隆大學(CMU)的研究者聯合發表的一篇論文表明:只要我們能夠将影像(或其他非語言模态)轉化為 LLM 能夠理解的語言,這似乎是可行的。
論文地址:https://arxiv.org/abs/2306.17842
這篇論文揭示了 PaLM 或 GPT 在通過上下文學習解決視覺任務方面的能力,并提出了新方法 SPAE(Semantic Pyramid AutoEncoder)。這種新方法使得 LLM 能夠執行影像生成任務,而無需進行任何參數更新。這也是使用上下文學習使得 LLM 生成影像内容的首個成功方法。
我們先來看一下通過上下文學習,LLM 在生成影像内容方面的實驗效果。
例如,在給定上下文中,通過提供 50 張手寫影像,論文要求 PaLM 2 回答需要生成數字影像作為輸出的復雜查詢:
還能在有影像上下文輸入的情況下生成逼真的現實影像:
除了生成影像,通過上下文學習,PaLM 2 還能進行影像描述:
還有與影像相關問題的視覺問答:
甚至可以去噪生成視頻:
方法概述
實際上,将影像轉化為 LLM 能夠理解的語言,是在視覺 Transformer(ViT)論文中就已經研究過的問題。在 Google 和 CMU 的這篇論文中,他們将其提升到了一個新的層次 —— 使用實際的單詞來表示影像。
這種方法就像建造一個充滿文字的塔樓,捕捉影像的語義和細節。這種充滿文字的表示方法讓影像描述可以輕松生成,并讓 LLM 可以回答與影像相關的問題,甚至可以重構影像像素。
具體來説,該研究提出使用經過訓練的編碼器和 CLIP 模型将影像轉換為一個 token 空間;然後利用 LLM 生成合适的詞法 token;最後使用訓練有素的解碼器将這些 token 轉換回像素空間。這個巧妙的過程将影像轉換為 LLM 可以理解的語言,使我們能夠利用 LLM 在視覺任務中的生成能力。
實驗及結果
該研究将 SPAE 與 SOTA 方法 Frozen 和 LQAE 進行了實驗比較,結果如下表 1 所示。SPAEGPT 在所有任務上性能均優于 LQAE,且僅使用 2% 的 token。
總的來説,在 mini-ImageNet 基準上的測試表明,SPAE 方法相比之前的 SOTA 方法提升了 25% 的性能。
為了驗證 SPAE 設計方法的有效性,該研究進行了消融實驗,實驗結果如下表 4 和圖 10 所示:
感興趣的讀者可以閲讀論文原文,了解更多研究内容。
© THE END
轉載請聯系本公眾号獲得授權
投稿或尋求報道:[email protected]