10.16798/j.issn.1003-0530.2020.09.007
融合注意力机制和连接时序分类的多模态手语识别
连续手语识别的难点之一是手语数据中存在时空维度的冗余信息,以及手语数据与给定标签序列的对齐问题.因此,本文提出一种融合注意力机制和连接时序分类的连续手语识别模型,可以提取手语数据中彩色和深度视频片段的短期时空特征以及手部运动轨迹特征,将三种模态的特征融合后使用空间注意力加权并按照时间顺序输入到双向长短期记忆网络中进行时序建模,以获取长期时空特征,最后利用融合注意力机制和连接时序分类模型的解码网络以端到端的方式实现连续手语的准确识别.本模型在自行采集的中国手语数据集上进行测试,得到了高达0.943的准确率.
手语识别、三维卷积神经网络、长短期记忆网络、注意力机制、连接时序分类
36
TP391.4(计算技术、计算机技术)
国家自然科学基金;中国矿业大学重大项目培育专项
2020-11-20(万方平台首次上网日期,不代表论文的发表时间)
共11页
1429-1439