上海交大新框架解锁CLIP长文本能力，多模态生成细节拿捏，影像检索能力显著提升 - 大酷樂

今天小编分享的科学经验：上海交大新框架解锁CLIP长文本能力，多模态生成细节拿捏，影像检索能力显著提升，欢迎阅读。

CLIP 长文本能力被解锁，影像检索任务表现显著提升！

一些关键细节也能被捕捉到。上海交大联合上海 AI 实验室提出新框架Long-CLIP。

△棕色文本为区分两张图的关键细节

Long-CLIP 在保持 CLIP 原始特征空间的基础上，在影像生成等下游任务中即插即用，实现长文本细粒度影像生成——

长文本 - 影像检索提升 20%，短文本 - 影像检索提升 6%。

解锁 CLIP 长文本能力

CLIP 对齐了视觉与文本模态，拥有强大的 zero-shot 泛化能力。因此，CLIP 被广泛应用在各种多模态任务中，如影像分类、文本影像检索、影像生成等。

但 CLIP 的一大弊病是在于长文本能力的缺失。

首先，由于采用了绝对位置编码，CLIP 的文本输入长度被限制在了 77 个 token。不仅如此，实验发现 CLIP 真正的有效长度甚至不足 20 个 token，远远不足以表征细粒度信息。

文本端的长文本缺失也限制了视觉端的能力。由于仅包含短文本，CLIP 的视觉编码器也只会提取一张图片中最主要的成分，而忽略了各种细节。这对跨模态检索等细粒度任务是十分不利的。

同时，长文本的缺乏也使 CLIP 采取了类似 bag-of-feature（BOF）的简单建模方式，不具备因果推理等复杂能力。

针对这一问题，研究人员提出了 Long-CLIP 模型。

具体提出了两大策略：保留知识的位置编码扩充（Knowledge-Preserving Stretching of Positional Embedding）与加入核心成分对齐（Primary Component Matching）的微调策略。

保留知识的位置编码扩充

一个简单的扩充输入长度、增强长文本能力的方法是先以固定的比率 λ 1 对位置编码进行插值，再通过长文本进行微调。

研究者们发现，CLIP 的不同位置编码的训练程度是不同的。由于训练文本很可能以短文本为主，较低位的位置编码训练较为充分，能够精确地表征绝对位置，而较高位的位置编码则仅能表征其大致的相对位置。因此，对不同位置的编码进行插值的代价是不同的。

基于以上观察，研究者保留了前 20 个位置编码，而对于剩下的 57 个位置编码，则以一个更大的比率 λ 2 进行插值，计算公式可表示为：

实验表明，相较于直接插值，该策略可以在支持更长的总长度的同时大幅提升在各个任务上的性能。

加入核心属性对齐的微调

仅仅引入长文本微调会使模型走入另一个误区，即一视同仁地囊括所有细节。针对这一问题，研究者们在微调中引入核心属性对齐这一策略。

具体而言，研究者们利用主成分分析（PCA）算法，从细粒度的影像特征中提取核心属性，将其余属性过滤后重建粗粒度影像特征，并将其与概括性的短文本进行对齐。这一策略既要求模型不仅能够包含更多的细节（细粒度对齐），同时还能识别并建模其中最为核心的属性（核心成分提取与粗粒度对齐）。

△加入核心属性对齐的微调流程即插即用在各种多模态任务中

在图文检索、影像生成等领網域，Long-CLIP 可即插即用地替换 CLIP。

比如图文检索，Long-CLIP 能够在影像与文本模态捕捉更多细粒度信息，从而可以增强相似影像和文本的区分能力，大幅提升图文检索的表现。

无论是在传统的短文本检索（COCO、Flickr30k），还是在长文本检索任务上，Long-CLIP 在召回率上均有显著提升。

△短文本 - 影像检索实验结果

△长文本 - 影像检索实验结果

△长文本 - 影像检索可视化，棕色文本为区分两张图片的关键细节

除此之外，CLIP 的文本编码器常被用于文本到影像生成模型中，如 stable diffusion 系列等。但由于长文本能力的缺失，用于生成影像的文本描述通常都十分简短，无法个性化地订制各种细节。

Long-CLIP 可以突破 77 个 token 的限制，实现篇章级别的影像生成（右下）。

也可以在 77 个 token 内建模更多地细节，实现细粒度影像生成（右上）。

论文链接：

https://arxiv.org/abs/2403.15378

代码链接：

https://github.com/beichenzbc/Long-CLIP

熱門排行

王治郅：杨瀚森主要的问题是速度他的速度跟郟君昊 | 2025-05-05
贸易战烧进电影院：特朗普拟重税打击外国电影習又夏 | 2025-05-05
贷款追高炒黄金的人后悔了！有人一天亏掉6年寸飛蘭 | 2025-05-05
手机电池突破8000mAh？硅碳技术的回旋镖：「折衛青柏 | 2025-05-05
贷款追高炒黄金的人后悔了！有人一天亏掉6年繁綺文 | 2025-05-05
任天堂对Genki提起Switch 2商标侵权诉讼，后郜萌運 | 2025-05-05
哪吒汽车APP和官网恢复正常知情人士：之前断袁曼雁 | 2025-05-05
极越汽车 CEO 夏一平名下青岛/义乌两家公司集玲琳 | 2025-05-05
全国经济第一大省明确，推动组建农商联合银行佼昌翰 | 2025-05-05
桑保利：亚马尔有配合意识&有点像梅西姆巴佩甄正浩 | 2025-05-05
高露现身上海虹桥机场黑色外套点缀亮色爱惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：处理器更新为天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懒癌”发病率上升，定期体检别忽视幸聽楓 | 2023-05-02
宋慧乔获百想视后韩素希发图手动加爱心表賁芳蕤 | 2023-05-02
曹操墓，里面都有啥？衛青柏 | 2023-05-02
十年了，他们终于要HE！惠惠君 | 2023-05-07
中央部署经济工作，释放5大信号郜萌運 | 2023-05-02
高德上线手机弯道会车预警功能習又夏 | 2023-05-02
陈自瑶抱病为爱女做蛋糕庆生，王浩信点赞没露賁芳蕤 | 2023-05-02
等比例长大的童星，李兰迪算一个郟君昊 | 2023-05-02
这些被抓来做实验的流浪狗，最终拯救了无数糖集玲琳 | 2023-05-02
高端国产车：军车血统，目前电动车越野的“天花謝飛揚 | 2023-05-02
《云襄传》终于抬上来啦，男O女A让人好上头！集玲琳 | 2023-05-02
21家A股游戏公司2022年收入651亿今年“游衛青柏 | 2023-05-04
信用风险释放趋缓，结构性风险需重点关注 — 袁曼雁 | 2023-05-02
与周立波夫妇闹纠纷成老赖，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
普京签署总统令，批准对俄刑法典相关法条的修集玲琳 | 2023-05-02
解除资格！停止一切合作佼昌翰 | 2023-05-02
中银证券给予南京银行增持评级袁曼雁 | 2023-05-03
3699起联想小新mini主机上架 13代酷睿标压習又夏 | 2023-05-05
前董事长被免，天山生物全面进入“中植系”时惠惠君 | 2023-05-02
疯成这样，怎么还能被全网吹捧？郜萌運 | 2023-05-02
狂吼11次“让一下”！交警咆哮开道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收购美国第一共和银行謝飛揚 | 2023-05-02
台剧赢麻了，又来一部8.9 衛青柏 | 2023-05-02
事关农村土地承包和农民权益，《农村土地承包郟君昊 | 2023-05-02
下降45分，上涨35分！34所自划线院校复试分数线袁曼雁 | 2023-05-07
"三高"已盯上青少年，做好这件事是关键習又夏 | 2023-05-05
五一档没一个能打的集玲琳 | 2023-05-05
恐怖韩剧下神坛，这次胆小可入袁曼雁 | 2023-05-05
这剧是不是用ChatGPT写的呀？惠惠君 | 2023-05-02
200户连夜疏散，原因让人愤怒！“损失超一亿”，袁曼雁 | 2023-05-03
性骚扰惯犯，滚出娱乐圈謝飛揚 | 2023-05-05
48岁何炅自曝已老花眼，黄磊睡前认老，《向往的佼昌翰 | 2023-05-02
一个《长月烬明》倒了，《狐妖》《长相思》《惠惠君 | 2023-05-02
张天爱假期晒“酷”存照卷发披肩穿黑色吊嬴覓晴 | 2023-05-02
当年轻人开始不随份子钱袁曼雁 | 2023-05-02
毕滢用8年时间成功逼宫？曾被传已婚生子的她，幸聽楓 | 2023-05-03
宋慧乔获视后首次晒照，拿奖杯笑容温柔郜萌運 | 2023-05-02