10.16798/j.issn.1003-0530.2023.03.014
一种改进的线性注意力机制语音识别方法
Conformer模型因其优越的性能,吸引了越来越多研究者的关注,逐渐成为语音识别领域的主流模型,但因其采用注意力机制从输入中提取信息,需要对输入序列中所有样本点进行交互计算,导致网络计算复杂度为输入序列长度的平方,因此在对长语音进行识别时需要消耗更多计算资源,其识别速度较慢.针对此问题,本文提出一种线性注意力机制的语音识别方法.首先,提出一种新型门控线性注意力结构将多头注意力改进为单头,将注意力计算复杂度改进为序列长度的线性关系,以有效减少注意力计算复杂度.其次,为了弥补使用线性注意力导致的模型建模能力下降,在线性注意力求解过程中,综合使用局部注意力和全局注意力,联合线性注意力编码,提高模型识别精度.最后,为了进一步提升模型识别效果,在注意力损失和连接时序分类(connectionist temporal classification,CTC)损失的基础上使用注意力引导损失和中间CTC损失融合建模目标函数.在中文普通话数据集AISHELL-1和英文LibriSpeech数据集上的实验结果表明,改进模型的性能明显优于基线模型,且模型显存消耗下降,训练、识别速度得到较大提升.
语音识别、端到端、高效注意力、连接时序分类、Conformer
39
TN912.34
国家自然科学基金;河南省中原科技创新领军人才项目;河南省自然科学基金面上项目
2023-04-19(万方平台首次上网日期,不代表论文的发表时间)
共10页
516-525