AddressCLIP:一张图实现街道级定位的图像地理定位大模型
AddressCLIP:一张图实现街道级定位的图像地理定位大模型
中科院自动化所和阿里云联合推出了街景定位大模型AddressCLIP,该模型能够在一张照片中实现街道级精度的定位。相关论文《AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization》已入选计算机视觉顶级会议ECCV2024。
传统的图像位置识别方法往往通过图像检索来确定GPS坐标,这种方法不仅晦涩难懂,而且需要建立和维护庞大的数据库,难以实现本地化部署。而AddressCLIP则提出了更加用户友好的端到端图像地理定位任务。
数据集构建
AddressCLIP模型的训练数据集构建主要分为两个步骤:
图像-地址对收集:由于现有图文数据中包含地址信息的比例过少,研究团队选择基于图像地理定位中的图像-GPS数据对进行数据集的构造。通过地图中的Reverse Geocoding API,可以对一个GPS查询到一系列的相近地址。接着,通过筛选、投票等数据清洗机制,可以过滤得到每个图像的街道级地址文本。
语义地址划分:考虑到街道本身的长短分布差异巨大,导致分布极度不均衡,同时街道级别的定位精度仍然过于粗糙。因此,研究人员模仿人类描述位置的习惯,对于街道级别的地址进行了进一步的语义地址划分。该过程通过使用道路交叉的十字路口等信息来对地址信息进行加强。
最终,论文构造了位于两个城市,三种不同尺度的数据集。
模型实现
AddressCLIP模型在训练时主要进行了以下改进:
数据增强:借助BLIP等多模态生成模型的图像标注能力,为每个街景图像生成语义文本,并将语义文本与地址文本按照一定规则拼接,以弥补本任务和CLIP预训练任务的差异。
损失函数优化:引入了图像-地理匹配损失,通过监督图像在特征空间中的距离与真实地理距离的一致性,使得模型学到的特征空间更加均匀。
最终,AddressCLIP将经典的CLIP损失优化为图像-地址文本对比损失、图像-语义对比损失以及图像-地理匹配损失,实现了准确、均匀的图像-地址文本对齐。
性能表现
在定量实验中,AddressCLIP在不同数据集和指标上均优于零样本的CLIP、直接对齐地址的CLIP以及各种CLIP微调策略方法。在定性实验中,模型展示了在推理形式上的灵活性与泛化性,能够处理不同精细程度的地址文本查询。
此外,研究团队还展示了将AddressCLIP与LLaVA-1.5-vicuna结合进行视觉指令微调,实现了对图像地址的生成式识别,在与前沿多模态模型的对比中展现出明显优势。
未来展望
作者预计,AddressCLIP技术可以进一步扩展应用于社交媒体基于位置的个性化推荐,或者与多模态大模型结合进行更加丰富的地址、地理信息相关问答,提供更加智能的城市、地理助手。
论文地址:https://arxiv.org/abs/2407.08156