双线性聚合残差注意力的细粒度图像分类模型

引用

摘要：

针对细粒度图像分类任务中种类间局部信息差异性较小,通常会导致模型表征能力不足,特征通道之间的相互依赖关系较差以及无法有效捕捉到显著且多样化的特征信息等问题,提出了一种双线性聚合残差注意力网络(BARAN).首先在原双线性卷积网络模型(B-CNN)基础上,把原有特征提取子网络转变为更具学习能力的聚合残差网络,来提升网络的特征捕获能力;然后在每一聚合残差块内嵌入分散注意力模块,使得网络专注于整合跨维度特征,强化特征获取过程中通道之间的紧密关联程度;最终将融合的双线性特征图输入到互通道注意力模块中,利用互通道注意力模块包含的判别性与区分性两个子组件进一步学习到更加细微、多样化且互斥的局部类间易混淆信息.实验结果表明,该方法在CUB-200-2011、FGVC-Aircraft和Stanford Cars三个细粒度图像数据集上分类精度分别达到87.9％、92.9％、94.7％,性能优于大多数主流模型方法,并且相比原B-CNN模型提升幅度分别达到了0.038、0.088、0.034.

关键词：细粒度图像分类、聚合残差、分散注意力、互通道注意力、多样化特征

所属期刊栏目：16

分类号：TP391.4(计算技术、计算机技术)

资助基金：宁夏自然科学基金项目;国家自然科学基金;西部一流大学科研创新项目

在线出版日期：2022-04-20（万方平台首次上网日期，不代表论文的发表时间）

页数：共12页

页码：938-949

英文信息展示

期刊专题