基于ResNet-BLSTM的端到端语音识别

引用

摘要：

基于深度学习的端到端语音识别模型中,由于模型的输入采用固定长度的语音帧,造成时域信息和部分高频信息损失进而导致识别率不高、鲁棒性差等问题.针对上述问题,提出了一种基于残差网络与双向长短时记忆网络相结合的模型,该模型采用语谱图作为输入,同时在残差网络中设计并行卷积层,提取不同尺度的特征,然后进行特征融合,最后采用连接时序分类方法进行分类,实现一个端到端的语音识别模型.实验结果表明,该模型在Aishell-1语音集上字错误率相较于传统端到端模型的WER下降2.52％,且鲁棒性较好.

关键词：残差网络(ResNet)、双向长短时记忆网络(BLSTM)、并行卷积层、连接时序分类

所属期刊栏目：56

分类号：TP391(计算技术、计算机技术)

资助基金：重庆市科委项目No.cstc2017zdcy-zdzxX0011

在线出版日期：2020-09-17（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：124-130

英文信息展示

期刊专题