10.3979/j.issn.1673-825X.201910210358
基于膨胀卷积的多模态融合视线估计
基于表观的视线估计方法主要是在二维的三原色(red green blue,RGB)图像上进行,当头部在自由运动时视线估计精度较低,且目前基于卷积神经网络的表观视线估计都普遍使用池化来增大特征图中像素点的感受野,导致了特征图的信息损失,提出一种基于膨胀卷积神经网络的多模态融合视线估计模型.在该模型中,利用膨胀卷积设计了一种叫GENet(gaze estimation network)的网络提取眼睛的RGB和深度图像的特征图,并利用卷积神经网络的全连接层自动融合头部姿态和2种图像的特征图,从而进行视线估计.实验部分在公开数据集Eyediap上验证了设计的模型,并将设计的模型同其他视线估计模型进行比较.实验结果表明,提出的视线估计模型可以在自由的头部运动下准确地估计视线方向.
视线估计;膨胀卷积;三原色(RGB)图像;深度图像
33
TP391(计算技术、计算机技术)
国家自然科学基金61801061
2021-08-10(万方平台首次上网日期,不代表论文的发表时间)
共8页
637-644