融合多重注意力机制的人眼注视点预测

引用

摘要：

目的经典的人眼注视点预测模型通常采用跳跃连接的方式融合高、低层次特征,容易导致不同层级之间特征的重要性难以权衡,且没有考虑人眼在观察图像时偏向中心区域的问题.对此,本文提出一种融合注意力机制的图像特征提取方法,并利用高斯学习模块对提取的特征进行优化,提高了人眼注视点预测的精度.方法提出一种新的基于多重注意力机制(multiple attention mechanism,MAM)的人眼注视点预测模型,综合利用3种不同的注意力机制,对添加空洞卷积的ResNet-50模型提取的特征信息分别在空间、通道和层级上进行加权.该网络主要由特征提取模块、多重注意力模块和高斯学习优化模块组成.其中,空洞卷积能够有效获取不同大小的感受野信息,保证特征图分辨率大小的不变性;多重注意力模块旨在自动优化获得的低层丰富的细节信息和高层的全局语义信息,并充分提取特征图通道和空间信息,防止过度依赖模型中的高层特征;高斯学习模块用来自动选择合适的高斯模糊核来模糊显著性图像,解决人眼观察图像时的中心偏置问题.结果在公开数据集SALICON(saliency in con-text)上的实验表明,提出的方法相较于同结构的SAM-Res(saliency attention modal)模型以及DINet(dilated inception network)模型在相对熵(Kullback-Leibler divergence,KLD)、sAUC(shuffled area under ROC curve)和信息增益(informa-tion gain,IG)评价标准上分别提高了33％、0.3％和6％;53％、0.5％和192％.结论实验结果表明,提出的人眼注视点预测模型能通过加权的方式分别提取空间、通道、层之间的特征,在多数人眼注视点预测指标上超过了主流模型.

关键词：人眼注视点预测、多重注意力、层注意力、通道注意力、空间注意力、高斯学习

所属期刊栏目：27

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金;国家自然科学基金;湖北省自然科学基金;湖北省技术创新专项重大项目

在线出版日期：2022-12-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共13页

页码：3503-3515

英文信息展示

期刊专题