10.16208/j.issn1000-7024.2023.03.038
基于ViT的细粒度图像分类
为解决细粒度图像分类任务存在类内差异性和类间相似性大的问题,提出一种基于Vision Transformer(ViT)的细粒度图像分类方法.采取ViT作为特征编码网络,获取图像的全局特征表示;设计多级区域选择模块,捕捉细微的具有可判别性的层级化信息;利用一个简单且有效的中心损失函数,缩短深层特征与相应类中心在特征空间中的距离.在图像级标签的监督下,实现端到端的训练.结果在CUB-200-2011、NABirds以及Stanford Cars数据集上分别达到90.1%、90.2%和93.7%的分类准确率,超越当前最优算法.
细粒度图像分类、深度自注意力变换网络、注意力机制、中心损失、卷积神经网络、特征表示、特征空间
44
TP391(计算技术、计算机技术)
2023-05-08(万方平台首次上网日期,不代表论文的发表时间)
共6页
916-921