多尺度时空特征融合的动态手势识别网络
由于动态手势数据具有时间复杂性以及空间复杂性,传统的机器学习算法难以提取准确的手势特征;现有的动态手势识别算法网络设计复杂、参数量大、手势特征提取不充分.为解决以上问题,该文提出一种基于卷积视觉自注意力模型(CvT)的多尺度时空特征融合网络.首先,将图片分类领域的CvT网络引入动态手势分类领域,用于提取单张手势图片的空间特征,将不同空间尺度的浅层特征与深层特征融合.其次,设计一种多时间尺度聚合模块,提取动态手势的时空特征,将CvT网络与多时间尺度聚合模块结合,抑制无效特征.最后为了弥补CvT网络中dropout层的不足,将R-Drop模型应用于多尺度时空特征融合网络.在Jester数据集上进行实验验证,与多种基于深度学习的动态手势识别方法进行对比,实验结果表明,该文方法在识别率上优于现有动态手势识别方法,在动态手势数据集Jester上识别率达到92.26%.
动态手势识别、深度学习、卷积视觉自注意力模型、多尺度融合
45
TN911.73
2023-08-21(万方平台首次上网日期,不代表论文的发表时间)
共9页
2614-2622