10.3778/j.issn.1002-8331.1907-0019
基于ResNet-BLSTM的端到端语音识别
基于深度学习的端到端语音识别模型中,由于模型的输入采用固定长度的语音帧,造成时域信息和部分高频信息损失进而导致识别率不高、鲁棒性差等问题.针对上述问题,提出了一种基于残差网络与双向长短时记忆网络相结合的模型,该模型采用语谱图作为输入,同时在残差网络中设计并行卷积层,提取不同尺度的特征,然后进行特征融合,最后采用连接时序分类方法进行分类,实现一个端到端的语音识别模型.实验结果表明,该模型在Aishell-1语音集上字错误率相较于传统端到端模型的WER下降2.52%,且鲁棒性较好.
残差网络(ResNet)、双向长短时记忆网络(BLSTM)、并行卷积层、连接时序分类
56
TP391(计算技术、计算机技术)
重庆市科委项目No.cstc2017zdcy-zdzxX0011
2020-09-17(万方平台首次上网日期,不代表论文的发表时间)
共7页
124-130