10.19734/j.issn.1001-3695.2023.02.0051
基于时域卷积网络的中文句子级唇语识别算法
针对现有中文句子级唇语识别技术存在的视觉歧义、特征提取不充分导致识别准确率偏低的问题,提出了 一种基于时域卷积网络,采用三维时空卷积的中文句子级唇语识别算法——3DT-CHLipNet(Chinese LipNet based on 3 DCNN,TCN).首先,针对特征提取不充分的问题,所提算法采用了比长短期记忆网络(LSTM)感受野更大的时域卷积网络(temporal convolutional network,TCN)来提取长时依赖信息;其次,针对中文唇语识别中存在的"同型异义"视觉歧义问题,将自注意力机制应用于中文句子级唇语识别,以更好地捕获上下文信息,提升了句子预测准确率;最后,在数据预处理方面引入了时间掩蔽数据增强策略,进一步降低了算法模型的错误率.在最大的开源汉语普通话句子级数据集CMLR上的实验测试表明,与现有中文句子级唇语识别代表性算法相比,所提算法的识别准确率提高了 2.17%至23.99%.
中文唇语识别、深度学习、时域卷积网络、注意力机制
40
TP391.4(计算技术、计算机技术)
北京市自然科学基金资助项目;中央高校基本科研业务费资助项目
2023-10-19(万方平台首次上网日期,不代表论文的发表时间)
共7页
2596-2602