一張圖實現街道級定位，端到端影像地理定位大模型AdressCLIP登ECCV2024

今天小編分享的科學經驗：一張圖實現街道級定位，端到端影像地理定位大模型AdressCLIP登ECCV2024，歡迎閱讀。

拔草星人的好消息來啦！

中科院自動化所和阿裡雲一起推出了街景定位大模型，只要一張照片就能實現街道級精度的定位。

有了模型的幫助，再也不用害怕遇到種草 " 謎語人 " 了。

比如給模型看一張舊金山的街景之後，它直接給出了具體的拍攝位置，并列舉了附近的多個候選地址。

該模型名為 AddressCLIP，基于 CLIP 構建。‍

相關論文 AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization 已入選頂會 ECCV2024。

傳統的影像位置識别往往致力于以影像檢索的方式來确定影像的 GPS 坐标，這種方法稱為影像地理定位。

但 GPS 對于普通人來說晦澀難懂，并且影像檢索需要建立并維護一個龐大的數據庫，難以本地化部署。

本篇工作提出了更加用戶友好的，端到端的影像地理定位任務。二者的對比示意圖如下：

針對這個任務，為了實現上述效果，研究人員主要從數據集構建與定制化的模型訓練兩方面入手開展了研究。

影像地址定位數據集構建

影像地址定位本質上是需要将街景影像與地址文本進行圖文模态的對齊，因此首先需要收集大量的影像 - 地址對。

考慮到現有的用于多模态訓練的圖文數據中包含地址信息的數據比例過于稀少，研究人員選擇基于影像地理定位中的影像 -GPS 數據對進行數據集的構造。

具體來說，通過使用地圖中的 Reverse Geocoding API，可以對一個 GPS 查詢到一系列的相近的地址。

接着，通過篩選、投票等數據清洗機制，可以過濾得到每個影像的街道級地址文本。

這一過程如下圖所示：

然而，考慮到街道本身的長短分布差異巨大，導致這個分布極度不均衡，同時街道級别的定位精度仍然過于粗糙。

因此，研究人員模仿人類描述位置的習慣，對于街道級别的地址進行了進一步的語義地址劃分。

該過程通過使用道路交叉的十字路口等信息來對地址信息進行加強，其具體過程以及最終形成的地址文本描述如下：

最終，論文構造了位于兩個城市，三種不同尺度的數據集，相關數據信息如下：

AddressCLIP 具體實現

有了上述街景 - 地址文本的數據準備之後，似乎直接模仿 CLIP 的方式進行對比學習的微調即可。

但考慮到本任務的影像 - 文本數據對的語義關聯十分微弱，這和 CLIP 預訓練的數據存在着比較大的差異。

因此研究人員首先從數據和損失函數層面進行了對 CLIP 原始的訓練框架進行了改進。

具體來說，借助以 BLIP 為代表的多模态生成模型的影像标注能力，研究人員對于訓練數據中每個街景影像進行了語義文本的自動化标注。

然後，作者将語義文本與地址文本按照一定規則直接進行拼接，顯式的彌補了本任務和 CLIP 預訓練任務的差異。

這樣一來，微調過程優化更加容易，并且也能過通過語義隐式增強了地址文本的判别性。

此外，考慮到影像特征，地址文本特征在預訓練特征空間的分布可能是十分不均勻的。

受到流形學習的啟發，作者認為本任務中影像 - 地址文本的理想特征應該位于一個和真實環境匹配的低維流形上。

具體來說，研究人員們引入了在真實地理環境中距離相近的兩個點，其地址與影像特征在特征空間也應當接近，反之亦然這一假設。

利用影像與影像兩兩之間歸一化後的真實地理距離來監督它們在特征空間中的距離，從而實現了影像特征與真實地理環境的在距離層面的匹配，使得模型學到的特征空間更加均勻。

因此，AddressCLIP 将經典的 CLIP 損失優化為影像 - 地址文本對比損失，影像 - 語義對比損失以及影像 - 地理匹配損失，最終實現了準确、均勻的影像 - 地址文本對齊。

完成上述訓練後，AddressCLIP 可以通過給定候選地址集的形式進行推理。

值得一提的是，得益于模型将影像與各種地址的良好對齊，推理所用的候選文本可以是十分靈活與多樣的形式，而非一定要按照訓練集的書寫規則。

效果優于通用多模态模型

在定量實驗結果中，團隊主要将模型與與 zero-shot 的 CLIP，直接對齊地址的 CLIP 以及各種 CLIP 微調策略方法等進行對比。

可以看到，AddressCLIP 在不同數據集，不同指标上均優于各個所比較方法。

在定性實驗中，論文主要展示了 AddressCLIP 在推理形式上的靈活性與泛化性。

通過給定不同精細程度的地址文本的查詢（如街區，街道，子街道），模型都可以在測試集影像上展示出與其真實覆蓋地理分布一致的激活。

此外，研究人員也暢想了這一任務與數據集與多模态大模型結合的場景。

通過将數據集構造成關于地址問答的多輪對話形式，團隊對 LLaVA-1.5-vicuna 進行了視覺指令微調，實現了對影像地址的生成式識别。

在與前沿多模态模型的對比中展現出明顯的優勢，尤其是針對影像中不存在地标與明顯線索的影像。

作者預計，未來這一技術可以進一步擴展應用于社交媒體基于位置的個性化推薦上，或者與多模态大模型結合進行更加豐富的地址，地理信息相關問答，提供更加智能的城市、地理助手。

論文地址：

https://arxiv.org/abs/2407.08156

項目主頁：

https://addressclip.github.io

GitHub：

https://github.com/xsx1001/AddressCLIP

— 完 —

投稿請發郵件到：

[email protected]

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回復你

點這裡關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~