大語言模型的視覺天賦：GPT也能通過上下文學習解決視覺任務 - 大酷樂

今天小編分享的科技經驗：大語言模型的視覺天賦：GPT也能通過上下文學習解決視覺任務，歡迎閲讀。

機器之心報道

編輯：小舟

LLM 的能力還可以發揮到機器學習的更多子領網域。

當前，大型語言模型（LLM）已經掀起自然語言處理（NLP）領網域的變革浪潮。我們看到 LLM 具備強大的湧現能力，在復雜的語言理解任務、生成任務乃至推理任務上都表現優異。這啓發人們進一步探索 LLM 在機器學習另一子領網域 —— 計算機視覺（CV）方面的潛力。

LLM 的一項卓越才能是它們具備上下文學習的能力。上下文學習不會更新 LLM 的任何參數，卻在各種 NLP 任務中卻展現出了令人驚豔的成果。那麼，GPT 能否通過上下文學習解決視覺任務呢？

最近，來自谷歌和卡内基梅隆大學（CMU）的研究者聯合發表的一篇論文表明：只要我們能夠将影像（或其他非語言模态）轉化為 LLM 能夠理解的語言，這似乎是可行的。

論文地址：https://arxiv.org/abs/2306.17842

這篇論文揭示了 PaLM 或 GPT 在通過上下文學習解決視覺任務方面的能力，并提出了新方法 SPAE（Semantic Pyramid AutoEncoder）。這種新方法使得 LLM 能夠執行影像生成任務，而無需進行任何參數更新。這也是使用上下文學習使得 LLM 生成影像内容的首個成功方法。

我們先來看一下通過上下文學習，LLM 在生成影像内容方面的實驗效果。

例如，在給定上下文中，通過提供 50 張手寫影像，論文要求 PaLM 2 回答需要生成數字影像作為輸出的復雜查詢：

還能在有影像上下文輸入的情況下生成逼真的現實影像：

除了生成影像，通過上下文學習，PaLM 2 還能進行影像描述：

還有與影像相關問題的視覺問答：

甚至可以去噪生成視頻：

方法概述

實際上，将影像轉化為 LLM 能夠理解的語言，是在視覺 Transformer（ViT）論文中就已經研究過的問題。在 Google 和 CMU 的這篇論文中，他們将其提升到了一個新的層次 —— 使用實際的單詞來表示影像。

這種方法就像建造一個充滿文字的塔樓，捕捉影像的語義和細節。這種充滿文字的表示方法讓影像描述可以輕松生成，并讓 LLM 可以回答與影像相關的問題，甚至可以重構影像像素。

具體來説，該研究提出使用經過訓練的編碼器和 CLIP 模型将影像轉換為一個 token 空間；然後利用 LLM 生成合适的詞法 token；最後使用訓練有素的解碼器将這些 token 轉換回像素空間。這個巧妙的過程将影像轉換為 LLM 可以理解的語言，使我們能夠利用 LLM 在視覺任務中的生成能力。

實驗及結果

該研究将 SPAE 與 SOTA 方法 Frozen 和 LQAE 進行了實驗比較，結果如下表 1 所示。SPAEGPT 在所有任務上性能均優于 LQAE，且僅使用 2% 的 token。

總的來説，在 mini-ImageNet 基準上的測試表明，SPAE 方法相比之前的 SOTA 方法提升了 25% 的性能。

為了驗證 SPAE 設計方法的有效性，該研究進行了消融實驗，實驗結果如下表 4 和圖 10 所示：

感興趣的讀者可以閲讀論文原文，了解更多研究内容。

© THE END

轉載請聯系本公眾号獲得授權

投稿或尋求報道：[email protected]

熱門排行

王菲去了謝霆鋒演唱會：聽定情曲《玉蝴蝶》時繁綺文 | 2025-04-26
三星承認 Galaxy S24/S23 系列手機 One UI 習又夏 | 2025-04-26
特朗普關税“瞎折騰”！城堡投資創始人：制造業佼昌翰 | 2025-04-26
水果真的别随便買！勸你一定要注意 2 件事佼昌翰 | 2025-04-26
奶茶中有沒有“科技與狠活”？教你識别佼昌翰 | 2025-04-26
莫蘭特重摔受傷缺席G4！已打完本季最後一戰？無嬴覓晴 | 2025-04-26
俄羅斯高級軍官，被炸死！袁曼雁 | 2025-04-26
阿門髒？烏度卡：強硬和髒是兩碼事你也可以質甄正浩 | 2025-04-26
外賣平台，需要一個“胖東來” 惠惠君 | 2025-04-26
美國人迎來“特朗普關税漲價潮” 亞馬遜、T 佼昌翰 | 2025-04-26
高露現身上海虹橋機場黑色外套點綴亮色愛惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：處理器更新為天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懶癌”發病率上升，定期體檢别忽視幸聽楓 | 2023-05-02
宋慧喬獲百想視後韓素希發圖手動加愛心表賁芳蕤 | 2023-05-02
十年了，他們終于要HE！惠惠君 | 2023-05-07
曹操墓，裏面都有啥？衛青柏 | 2023-05-02
中央部署經濟工作，釋放5大信号郜萌運 | 2023-05-02
高德上線手機彎道會車預警功能習又夏 | 2023-05-02
陳自瑤抱病為愛女做蛋糕慶生，王浩信點贊沒露賁芳蕤 | 2023-05-02
等比例長大的童星，李蘭迪算一個郟君昊 | 2023-05-02
高端國產車：軍車血統，目前電動車越野的“天花謝飛揚 | 2023-05-02
《雲襄傳》終于抬上來啦，男O女A讓人好上頭！集玲琳 | 2023-05-02
這些被抓來做實驗的流浪狗，最終拯救了無數糖集玲琳 | 2023-05-02
信用風險釋放趨緩，結構性風險需重點關注 — 袁曼雁 | 2023-05-02
21家A股遊戲公司2022年收入651億今年“遊衛青柏 | 2023-05-04
與周立波夫婦鬧糾紛成老賴，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
普京籤署總統令，批準對俄刑法典相關法條的修集玲琳 | 2023-05-02
中銀證券給予南京銀行增持評級袁曼雁 | 2023-05-03
解除資格！停止一切合作佼昌翰 | 2023-05-02
3699起聯想小新mini主機上架 13代酷睿标壓習又夏 | 2023-05-05
前董事長被免，天山生物全面進入“中植系”時惠惠君 | 2023-05-02
瘋成這樣，怎麼還能被全網吹捧？郜萌運 | 2023-05-02
狂吼11次“讓一下”！交警咆哮開道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收購美國第一共和銀行謝飛揚 | 2023-05-02
台劇赢麻了，又來一部8.9 衛青柏 | 2023-05-02
下降45分，上漲35分！34所自劃線院校復試分數線袁曼雁 | 2023-05-07
事關農村土地承包和農民權益，《農村土地承包郟君昊 | 2023-05-02
"三高"已盯上青少年，做好這件事是關鍵習又夏 | 2023-05-05
五一檔沒一個能打的集玲琳 | 2023-05-05
恐怖韓劇下神壇，這次膽小可入袁曼雁 | 2023-05-05
這劇是不是用ChatGPT寫的呀？惠惠君 | 2023-05-02
200户連夜疏散，原因讓人憤怒！“損失超一億”，袁曼雁 | 2023-05-03
性騷擾慣犯，滾出娛樂圈謝飛揚 | 2023-05-05
48歲何炅自曝已老花眼，黃磊睡前認老，《向往的佼昌翰 | 2023-05-02
一個《長月燼明》倒了，《狐妖》《長相思》《惠惠君 | 2023-05-02
張天愛假期曬“酷”存照卷發披肩穿黑色吊嬴覓晴 | 2023-05-02
當年輕人開始不随份子錢袁曼雁 | 2023-05-02
畢滢用8年時間成功逼宮？曾被傳已婚生子的她，幸聽楓 | 2023-05-03
宋慧喬獲視後首次曬照，拿獎杯笑容温柔郜萌運 | 2023-05-02