上海交大新框架解鎖CLIP長文本能力，多模态生成細節拿捏，影像檢索能力顯著提升 - 大酷樂

今天小編分享的科學經驗：上海交大新框架解鎖CLIP長文本能力，多模态生成細節拿捏，影像檢索能力顯著提升，歡迎閲讀。

CLIP 長文本能力被解鎖，影像檢索任務表現顯著提升！

一些關鍵細節也能被捕捉到。上海交大聯合上海 AI 實驗室提出新框架Long-CLIP。

△棕色文本為區分兩張圖的關鍵細節

Long-CLIP 在保持 CLIP 原始特征空間的基礎上，在影像生成等下遊任務中即插即用，實現長文本細粒度影像生成——

長文本 - 影像檢索提升 20%，短文本 - 影像檢索提升 6%。

解鎖 CLIP 長文本能力

CLIP 對齊了視覺與文本模态，擁有強大的 zero-shot 泛化能力。因此，CLIP 被廣泛應用在各種多模态任務中，如影像分類、文本影像檢索、影像生成等。

但 CLIP 的一大弊病是在于長文本能力的缺失。

首先，由于采用了絕對位置編碼，CLIP 的文本輸入長度被限制在了 77 個 token。不僅如此，實驗發現 CLIP 真正的有效長度甚至不足 20 個 token，遠遠不足以表征細粒度信息。

文本端的長文本缺失也限制了視覺端的能力。由于僅包含短文本，CLIP 的視覺編碼器也只會提取一張圖片中最主要的成分，而忽略了各種細節。這對跨模态檢索等細粒度任務是十分不利的。

同時，長文本的缺乏也使 CLIP 采取了類似 bag-of-feature（BOF）的簡單建模方式，不具備因果推理等復雜能力。

針對這一問題，研究人員提出了 Long-CLIP 模型。

具體提出了兩大策略：保留知識的位置編碼擴充（Knowledge-Preserving Stretching of Positional Embedding）與加入核心成分對齊（Primary Component Matching）的微調策略。

保留知識的位置編碼擴充

一個簡單的擴充輸入長度、增強長文本能力的方法是先以固定的比率 λ 1 對位置編碼進行插值，再通過長文本進行微調。

研究者們發現，CLIP 的不同位置編碼的訓練程度是不同的。由于訓練文本很可能以短文本為主，較低位的位置編碼訓練較為充分，能夠精确地表征絕對位置，而較高位的位置編碼則僅能表征其大致的相對位置。因此，對不同位置的編碼進行插值的代價是不同的。

基于以上觀察，研究者保留了前 20 個位置編碼，而對于剩下的 57 個位置編碼，則以一個更大的比率 λ 2 進行插值，計算公式可表示為：

實驗表明，相較于直接插值，該策略可以在支持更長的總長度的同時大幅提升在各個任務上的性能。

加入核心屬性對齊的微調

僅僅引入長文本微調會使模型走入另一個誤區，即一視同仁地囊括所有細節。針對這一問題，研究者們在微調中引入核心屬性對齊這一策略。

具體而言，研究者們利用主成分分析（PCA）算法，從細粒度的影像特征中提取核心屬性，将其餘屬性過濾後重建粗粒度影像特征，并将其與概括性的短文本進行對齊。這一策略既要求模型不僅能夠包含更多的細節（細粒度對齊），同時還能識别并建模其中最為核心的屬性（核心成分提取與粗粒度對齊）。

△加入核心屬性對齊的微調流程即插即用在各種多模态任務中

在圖文檢索、影像生成等領網域，Long-CLIP 可即插即用地替換 CLIP。

比如圖文檢索，Long-CLIP 能夠在影像與文本模态捕捉更多細粒度信息，從而可以增強相似影像和文本的區分能力，大幅提升圖文檢索的表現。

無論是在傳統的短文本檢索（COCO、Flickr30k），還是在長文本檢索任務上，Long-CLIP 在召回率上均有顯著提升。

△短文本 - 影像檢索實驗結果

△長文本 - 影像檢索實驗結果

△長文本 - 影像檢索可視化，棕色文本為區分兩張圖片的關鍵細節

除此之外，CLIP 的文本編碼器常被用于文本到影像生成模型中，如 stable diffusion 系列等。但由于長文本能力的缺失，用于生成影像的文本描述通常都十分簡短，無法個性化地訂制各種細節。

Long-CLIP 可以突破 77 個 token 的限制，實現篇章級别的影像生成（右下）。

也可以在 77 個 token 内建模更多地細節，實現細粒度影像生成（右上）。

論文鏈接：

https://arxiv.org/abs/2403.15378

代碼鏈接：

https://github.com/beichenzbc/Long-CLIP

熱門排行

王治郅：楊瀚森主要的問題是速度他的速度跟郟君昊 | 2025-05-05
貿易戰燒進電影院：特朗普拟重税打擊外國電影習又夏 | 2025-05-05
貸款追高炒黃金的人後悔了！有人一天虧掉6年寸飛蘭 | 2025-05-05
手機電池突破8000mAh？硅碳技術的回旋镖：「折衛青柏 | 2025-05-05
貸款追高炒黃金的人後悔了！有人一天虧掉6年繁綺文 | 2025-05-05
任天堂對Genki提起Switch 2商标侵權訴訟，後郜萌運 | 2025-05-05
哪吒汽車APP和官網恢復正常知情人士：之前斷袁曼雁 | 2025-05-05
極越汽車 CEO 夏一平名下青島/義烏兩家公司集玲琳 | 2025-05-05
全國經濟第一大省明确，推動組建農商聯合銀行佼昌翰 | 2025-05-05
桑保利：亞馬爾有配合意識&有點像梅西姆巴佩甄正浩 | 2025-05-05
高露現身上海虹橋機場黑色外套點綴亮色愛惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：處理器更新為天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懶癌”發病率上升，定期體檢别忽視幸聽楓 | 2023-05-02
宋慧喬獲百想視後韓素希發圖手動加愛心表賁芳蕤 | 2023-05-02
曹操墓，裏面都有啥？衛青柏 | 2023-05-02
十年了，他們終于要HE！惠惠君 | 2023-05-07
中央部署經濟工作，釋放5大信号郜萌運 | 2023-05-02
高德上線手機彎道會車預警功能習又夏 | 2023-05-02
陳自瑤抱病為愛女做蛋糕慶生，王浩信點贊沒露賁芳蕤 | 2023-05-02
等比例長大的童星，李蘭迪算一個郟君昊 | 2023-05-02
這些被抓來做實驗的流浪狗，最終拯救了無數糖集玲琳 | 2023-05-02
高端國產車：軍車血統，目前電動車越野的“天花謝飛揚 | 2023-05-02
《雲襄傳》終于抬上來啦，男O女A讓人好上頭！集玲琳 | 2023-05-02
21家A股遊戲公司2022年收入651億今年“遊衛青柏 | 2023-05-04
信用風險釋放趨緩，結構性風險需重點關注 — 袁曼雁 | 2023-05-02
與周立波夫婦鬧糾紛成老賴，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
普京籤署總統令，批準對俄刑法典相關法條的修集玲琳 | 2023-05-02
中銀證券給予南京銀行增持評級袁曼雁 | 2023-05-03
解除資格！停止一切合作佼昌翰 | 2023-05-02
3699起聯想小新mini主機上架 13代酷睿标壓習又夏 | 2023-05-05
前董事長被免，天山生物全面進入“中植系”時惠惠君 | 2023-05-02
瘋成這樣，怎麼還能被全網吹捧？郜萌運 | 2023-05-02
狂吼11次“讓一下”！交警咆哮開道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收購美國第一共和銀行謝飛揚 | 2023-05-02
台劇赢麻了，又來一部8.9 衛青柏 | 2023-05-02
事關農村土地承包和農民權益，《農村土地承包郟君昊 | 2023-05-02
下降45分，上漲35分！34所自劃線院校復試分數線袁曼雁 | 2023-05-07
"三高"已盯上青少年，做好這件事是關鍵習又夏 | 2023-05-05
五一檔沒一個能打的集玲琳 | 2023-05-05
恐怖韓劇下神壇，這次膽小可入袁曼雁 | 2023-05-05
這劇是不是用ChatGPT寫的呀？惠惠君 | 2023-05-02
200户連夜疏散，原因讓人憤怒！“損失超一億”，袁曼雁 | 2023-05-03
性騷擾慣犯，滾出娛樂圈謝飛揚 | 2023-05-05
48歲何炅自曝已老花眼，黃磊睡前認老，《向往的佼昌翰 | 2023-05-02
一個《長月燼明》倒了，《狐妖》《長相思》《惠惠君 | 2023-05-02
張天愛假期曬“酷”存照卷發披肩穿黑色吊嬴覓晴 | 2023-05-02
當年輕人開始不随份子錢袁曼雁 | 2023-05-02
畢滢用8年時間成功逼宮？曾被傳已婚生子的她，幸聽楓 | 2023-05-03
宋慧喬獲視後首次曬照，拿獎杯笑容温柔郜萌運 | 2023-05-02