基于CRNN混合神经网络的多语种识别
在语种识别过程中,为提取语音信号中的空间特征以及时序特征,从而达到提高多语种识别准确率的目的,提出了一种利用卷积循环神经网络(convolutional recurrent neural network,CRNN)混合神经网络的多语种识别模型.该模型首先提取语音信号的声学特征;然后将特征输入到卷积神经网络(convolutional neural network,CNN)提取低维度的空间特征;再通过空间金字塔池化层(spatial pyramid pooling layer,SPP layer)对空间特征进行规整,得到固定长度的一维特征;最后将其输入到循环神经网络(recurrenrt neural network,CNN)来判别语种信息.为验证模型的鲁棒性,实验分别在3个数据集上进行,结果表明:相比于传统的CNN和RNN,CRNN混合神经网络对不同数据集的语种识别准确率均有提高,其中在8语种数据集中时长为5 s的语音上最为明显,分别提高了 5.3%和6.1%.
语种识别、卷积循环神经网络混合神经网络、卷积神经网络、循环神经网络
33
TP391(计算技术、计算机技术)
国家自然科学基金61761025
2022-09-19(万方平台首次上网日期,不代表论文的发表时间)
共9页
620-628