基于自适应序列帧长度的端到端式唇语识别算法
唇语识别的提出为信息安全、辅助驾驶等多个新兴领域提供了崭新的思路,但现有唇语识别算法架构复杂、收敛速度慢,难以载入便携式设备以实现端到端的唇语识别.基于卷积神经网络(CNN)和双向长短期记忆(BLSTM)循环神经网络,本文提出了一种自适应序列长度的端到端式唇语识别神经网络算法.首先,该算法通过Dlib特征点定位法确定视频流中特征区域的位置;然后将位置信息传入CNN神经网络中进行预处理并得到相应的开关信号;最后,将开关信号传入BLSTM中控制其帧序列的长度.该算法对帧间底层的时间信息建模更加充分并能载入到端到端便携式设备上.经实验验证,该算法在数据集MIRACL-VC1上的有效精度达67.2%,与最先进的自适应序列唇语识别算法相比提升了 11.2%.
唇语识别、端到端、卷积神经网络、双向长短期记忆
21
R322.8(人体形态学)
国家重点研发计划2021YFF0701002
2024-01-19(万方平台首次上网日期,不代表论文的发表时间)
共5页
35-39