一张图实现街道级定位，端到端影像地理定位大模型AdressCLIP登ECCV2024 - 大酷樂

今天小编分享的科学经验：一张图实现街道级定位，端到端影像地理定位大模型AdressCLIP登ECCV2024，欢迎阅读。

拔草星人的好消息来啦！

中科院自动化所和阿里云一起推出了街景定位大模型，只要一张照片就能实现街道级精度的定位。

有了模型的帮助，再也不用害怕遇到种草 " 谜语人 " 了。

比如给模型看一张旧金山的街景之后，它直接给出了具体的拍摄位置，并列举了附近的多个候选地址。

该模型名为 AddressCLIP，基于 CLIP 构建。‍

相关论文 AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization 已入选顶会 ECCV2024。

传统的影像位置识别往往致力于以影像检索的方式来确定影像的 GPS 坐标，这种方法称为影像地理定位。

但 GPS 对于普通人来说晦涩难懂，并且影像检索需要建立并维护一个庞大的数据库，难以本地化部署。

本篇工作提出了更加用户友好的，端到端的影像地理定位任务。二者的对比示意图如下：

针对这个任务，为了实现上述效果，研究人员主要从数据集构建与定制化的模型训练两方面入手开展了研究。

影像地址定位数据集构建

影像地址定位本质上是需要将街景影像与地址文本进行图文模态的对齐，因此首先需要收集大量的影像 - 地址对。

考虑到现有的用于多模态训练的图文数据中包含地址信息的数据比例过于稀少，研究人员选择基于影像地理定位中的影像 -GPS 数据对进行数据集的构造。

具体来说，通过使用地图中的 Reverse Geocoding API，可以对一个 GPS 查询到一系列的相近的地址。

接着，通过筛选、投票等数据清洗机制，可以过滤得到每个影像的街道级地址文本。

这一过程如下图所示：

然而，考虑到街道本身的长短分布差异巨大，导致这个分布极度不均衡，同时街道级别的定位精度仍然过于粗糙。

因此，研究人员模仿人类描述位置的习惯，对于街道级别的地址进行了进一步的语义地址划分。

该过程通过使用道路交叉的十字路口等信息来对地址信息进行加强，其具体过程以及最终形成的地址文本描述如下：

最终，论文构造了位于两个城市，三种不同尺度的数据集，相关数据信息如下：

AddressCLIP 具体实现

有了上述街景 - 地址文本的数据准备之后，似乎直接模仿 CLIP 的方式进行对比学习的微调即可。

但考虑到本任务的影像 - 文本数据对的语义关联十分微弱，这和 CLIP 预训练的数据存在着比较大的差异。

因此研究人员首先从数据和损失函数层面进行了对 CLIP 原始的训练框架进行了改进。

具体来说，借助以 BLIP 为代表的多模态生成模型的影像标注能力，研究人员对于训练数据中每个街景影像进行了语义文本的自动化标注。

然后，作者将语义文本与地址文本按照一定规则直接进行拼接，显式的弥补了本任务和 CLIP 预训练任务的差异。

这样一来，微调过程优化更加容易，并且也能过通过语义隐式增强了地址文本的判别性。

此外，考虑到影像特征，地址文本特征在预训练特征空间的分布可能是十分不均匀的。

受到流形学习的启发，作者认为本任务中影像 - 地址文本的理想特征应该位于一个和真实环境匹配的低维流形上。

具体来说，研究人员们引入了在真实地理环境中距离相近的两个点，其地址与影像特征在特征空间也应当接近，反之亦然这一假设。

利用影像与影像两两之间归一化后的真实地理距离来监督它们在特征空间中的距离，从而实现了影像特征与真实地理环境的在距离层面的匹配，使得模型学到的特征空间更加均匀。

因此，AddressCLIP 将经典的 CLIP 损失优化为影像 - 地址文本对比损失，影像 - 语义对比损失以及影像 - 地理匹配损失，最终实现了准确、均匀的影像 - 地址文本对齐。

完成上述训练后，AddressCLIP 可以通过给定候选地址集的形式进行推理。

值得一提的是，得益于模型将影像与各种地址的良好对齐，推理所用的候选文本可以是十分灵活与多样的形式，而非一定要按照训练集的书写规则。

效果优于通用多模态模型

在定量实验结果中，团队主要将模型与与 zero-shot 的 CLIP，直接对齐地址的 CLIP 以及各种 CLIP 微调策略方法等进行对比。

可以看到，AddressCLIP 在不同数据集，不同指标上均优于各个所比较方法。

在定性实验中，论文主要展示了 AddressCLIP 在推理形式上的灵活性与泛化性。

通过给定不同精细程度的地址文本的查询（如街区，街道，子街道），模型都可以在测试集影像上展示出与其真实覆盖地理分布一致的激活。

此外，研究人员也畅想了这一任务与数据集与多模态大模型结合的场景。

通过将数据集构造成关于地址问答的多轮对话形式，团队对 LLaVA-1.5-vicuna 进行了视觉指令微调，实现了对影像地址的生成式识别。

在与前沿多模态模型的对比中展现出明显的优势，尤其是针对影像中不存在地标与明显线索的影像。

作者预计，未来这一技术可以进一步扩展应用于社交媒体基于位置的个性化推荐上，或者与多模态大模型结合进行更加丰富的地址，地理信息相关问答，提供更加智能的城市、地理助手。

论文地址：

https://arxiv.org/abs/2407.08156

项目主页：

https://addressclip.github.io

GitHub：

https://github.com/xsx1001/AddressCLIP

— 完 —

投稿请发邮件到：

[email protected]

标题注明【投稿】，告诉我们：

你是谁，从哪来，投稿内容‍

附上论文 / 项目主页链接，以及联系方式哦

我们会（尽量）及时回复你

点这里关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

>