今天小编分享的科学经验:无需参数访问!CMU用大模型自动优化视觉语言提示词,欢迎阅读。
视觉语言模型(如 GPT-4o、DALL-E 3)通常拥有数十亿参数,且模型权重不公开,使得传统的白盒优化方法(如反向传播)难以实施。
那么,有没有更轻松的优化方法呢?
就在最近,卡内基梅隆大学(CMU)的研究团队对于这个问题提出了一种创新的" 黑盒优化 " 策略——
通过大语言模型自动调整自然语言提示词,使视觉语言模型在文生图、视觉识别等多个下游任务中获得更好的表现。
这一方法不仅无需触及模型内部参数,还大幅提升了优化的灵活性与速度,让用户即使没有技术背景也能轻松提升模型性能。
该研究已被 CVPR 2024 接收。
如何做到的?
大多数视觉语言模型(如 DALL-E 3、GPT-4o 等)并未公开模型权重或特征嵌入,导致传统依赖反向传播的优化方式不再适用。
不过,这些模型通常向用户开放了自然语言接口,使得通过优化提示词来提升模型表现成为可能。
然而,传统的提示词工程严重依赖工程师的经验和先验知识。
例如,为提升 CLIP 模型的视觉识别效果,OpenAI 花费了一年时间收集了几十种有效的提示词模板(如 "A good photo of a [ class ] ")。
同样,在使用 DALL-E 3 和 Stable Diffusion 等文生图模型时,用户往往也需掌握大量提示词技巧才能生成满意的结果。
那么,有没有替代人类提示词工程师的方法?
有的 CMU 团队提出了一种新策略:用 ChatGPT 等大语言模型自动优化提示词。
像提示词工程师利用反馈改进提示词一样,CMU 的方法将正负反馈交给 ChatGPT,以更高效地调整提示词,具体过程如图所示:
这种优化过程类似于机器学习中的" 爬山法 "(hill-climbing)策略,不同之处在于大语言模型可以自动分析提示词表现,从正负反馈中找到最优改进方向。
研究团队利用这一特性来更高效地优化提示词。这个过程可以用以下步骤概括:
提示词初始化:收集一批未经优化的初始提示词。
提示词排序:对当前提示词进行表现评分,保留高分提示词,替换低分提示词。
生成新提示词:通过大语言模型,根据提示词的表现生成新的候选提示词。
经过多轮迭代,最终返回得分最高的提示词作为优化结果。
实验结果
通过这一方法,CMU 团队在无需人类提示工程师参与的情况下,在多个小样本视觉识别数据集上取得了最佳准确性,甚至超越了传统的白盒提示词优化方法(如 CoOp)。
此外,该方法在无需了解数据集内容的前提下,自动捕捉到了下游任务的视觉特性并将其融入提示词中,取得了更好的效果。
例如,在食物识别任务中,ChatGPT 自动将提示词调整为识别 " 多样化的美食和原料 ",从而提升了模型的表现。
研究团队还证明了,通过 ChatGPT 黑盒优化得到的提示词不仅适用于单一模型架构,还能在不同模型架构(如 ResNet 和 ViT)之间泛化,并且在多种模型上表现优于白盒优化得到的提示词。
这一系列实验证明,大语言模型能够从提示词的性能反馈中提取出隐含的 " 梯度 " 方向,从而实现无需反向传播的模型优化。
在文生图任务中的应用
CMU 团队进一步探索了该方法在生成任务中的应用潜力。
在文本到影像生成(T2I)任务中,ChatGPT 能够自动优化提示词,从而生成更符合用户需求的高质量影像。
例如,对于输入描述 " 一个动物注视着一个人 ",系统可以通过逐步优化提示词来提升生成影像的准确性。
此外,这一方法还适用于提示反演(Prompt Inversion)。
提示反演是一种根据现有影像反推生成模型输入提示词的技术,简单来说,就是通过影像生成能够再现其特征的文本描述(提示词)。
研究团队在复杂的文本到影像任务上进行了测试,结果表明这一方法仅需三轮提示词优化,就能显著提高用户的满意度。
此外,研究团队还指出,提示反演可以帮助用户快速定制特定的影像效果,例如 " 让这只狗变成站立姿势 " 或 " 让背景变成夜景 ",从而生成符合特定需求的影像。
CMU 团队表示,提出的黑盒优化范式突破了传统模型调优的限制,不仅在影像分类和生成任务中表现出色,还展示了广泛的应用潜力。
这一方法无需访问模型权重,仅通过 " 文本梯度 " 实现精准优化,具备强大的扩展性。
未来,黑盒优化有望应用于实时监控、自动驾驶、智能医疗等复杂动态场景,为多模态模型的调优带来更加灵活高效的解决方案。
团队介绍
团队的一作刘士弘(Shihong Liu)是卡内基梅隆大学的研究生毕业生,曾任机器人研究所研究员。
目前在 北美 Amazon 工作,负责大型分布式系统的计算和大语言模型驱动的 AI Agent 的开发。
△刘士弘(Shihong Liu)
团队的共同一作林之秋(Zhiqiu Lin)是卡内基梅隆大学的博士研究生,专注于视觉 - 语言大模型的自动评估与优化。
Zhiqiu Lin 在 CVPR、NeurIPS、ICML、ECCV 等顶级会议上发表了十数篇论文,并曾荣获最佳论文提名和最佳短论文奖等。
△林之秋(Zhiqiu Lin)
Deva Ramanan教授是计算机视觉领網域的国际知名学者,现任卡内基梅隆大学教授。
△Deva Ramanan 教授
他的研究涵盖计算机视觉、机器学习和人工智能领網域,曾获得多项顶级学术荣誉,包括 2009 年的 David Marr 奖、2010 年的 PASCAL VOC 终身成就奖、2012 年的 IEEE PAMI 青年研究员奖、2012 年《大众科学》评选的 " 十位杰出科学家 " 之一、2013 年美国国家科学院 Kavli Fellow、2018 年和 2024 年的 Longuet-Higgins 奖,以及因其代表性工作(如 COCO 数据集)获得的 Koenderink 奖。
此外,他的论文在 CVPR、ECCV 和 ICCV 上多次获得最佳论文提名及荣誉奖。他的研究成果对视觉识别、自动驾驶、和人机互動等应用产生了深远影响,是该领網域极具影响力的科学家之一。
CVPR ’ 24 论文链接 :
https://arxiv.org/abs/2309.05950
论文代码 :
https://github.com/shihongl1998/LLM-as-a-blackbox-optimizer
项目网站:
https://llm-can-optimize-vlm.github.io
— 完 —
投稿请发邮件到:
标题注明【投稿】,告诉我们:
你是谁,从哪来,投稿内容
附上论文 / 项目主页链接,以及联系方式哦
我们会(尽量)及时回复你
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
>