增量角度域损失和多特征融合的地标识别

引用

摘要：

目的地标识别是图像和视觉领域一个应用问题,针对地标识别中全局特征对视角变化敏感和局部特征对光线变化敏感等单一特征所存在的问题,提出一种基于增量角度域损失(additive angular margin loss,ArcFace损失)并对多种特征进行融合的弱监督地标识别模型.方法使用图像检索取Top-1的方法来完成识别任务.首先证明了ArcFace损失参数选取的范围,并于模型训练时使用该范围作为参数选取的依据,接着使用一种有效融合局部特征与全局特征的方法来获取图像特征以用于检索.其中,模型训练过程分为两步,第1步是在谷歌地标数据集上使用ArcFace损失函数微调ImageNet预训练模型权重,第2步是增加注意力机制并训练注意力网络.推理过程分为3个部分:抽取全局特征、获取局部特征和特征融合.具体而言,对输入的查询图像,首先从微调卷积神经网络的特征嵌入层提取全局特征;然后在网络中间层使用注意力机制提取局部特征;最后将两种特征向量横向拼接并用图像检索的方法给出数据库中与当前查询图像最相似的结果.结果实验结果表明,在巴黎、牛津建筑数据集上,特征融合方法可以使浅层网络达到深层预训练网络的效果,融合特征相比于全局特征(mean average precision,mAP)值提升约1％.实验还表明在神经网络嵌入特征上无需再加入特征白化过程.最后在城市级街景图像中本文模型也取得了较为满意的效果.结论本模型使用ArcFace损失进行训练且使多种特征相似性结果进行有效互补,提升了模型在实际应用场景中的抗干扰能力.

关键词：地标识别、增量角度域损失函数、注意力机制、多特征融合、卷积神经网络(CNN)

所属期刊栏目：25

分类号：TP391.4(计算技术、计算机技术)

资助基金：国家重点研发计划项目2017YFB1400704

在线出版日期：2020-10-20（万方平台首次上网日期，不代表论文的发表时间）

页数：共11页

页码：1567-1577

英文信息展示

期刊专题