DOI：10.11834/jig.220636

融合多尺度特征的复杂手势姿态估计网络

引用

摘要：

目的基于单幅RGB图像的手势姿态估计受手势复杂性、手指特征局部自相似性及遮挡问题的影响,导致手势姿态估计准确率低.为此,提出一种面向单目视觉手势姿态估计的多尺度特征融合网络.方法 1)采用ResNet50(50-layer residual network)模块从RGB图像提取不同分辨率特征图,通过通道变换模块显式地学习特征通道间的依赖关系,增强重要的特征通道信息,弱化次要的特征通道信息.2)在全局回归模块中,通过设计节点间的连接方式融合不同分辨率特征图,以便充分利用图像的细节与整体信息.采用局部优化模块继续提取更深层的特征信息,获得手部关节点的高斯热图,以此修正遮挡等原因造成部分关节点回归不准确的问题.3)计算经通道变换模块处理后的最小特征图,通过全局池化和多层感知机处理该特征图以获得手势类别和右手相对于左手的深度.4)综合以上结果获得最终的手势姿态.结果采用InterHand2.6M和RHD(rendered handpose dataset)数据集训练多尺度特征融合网络,评估指标中根节点的平均误差和关节点的平均误差,均低于同类方法,且在一些复杂和遮挡的场景下鲁棒性更高.在InterHand2.6M数据集上,与InterNet方法相比,本文方法的交互手关节点的平均误差降低5.8％,单手关节点的平均误差降低8.3％,根节点的平均误差降低5.1％.从RHD数据集的测试结果看,与同类方法相比,本文方法在手部关节点的平均误差上获得最小值.结论本文提出的多尺度特征融合网络能够更准确地预测手部关节点位置,适用于复杂手势或遮挡条件下的手势姿态估计(本文方法代码网址:https://github.com/cor-nersInHeart/hand-pose-esitmation.git).

关键词：手势估计、深度学习、注意力机制、多尺度特征、图像处理

所属期刊栏目：28

分类号：TP391(计算技术、计算机技术)

在线出版日期：2023-10-20（万方平台首次上网日期，不代表论文的发表时间）

页数：共12页

页码：2887-2898

英文信息展示

期刊专题