基于CRNN混合神经网络的多语种识别

引用

摘要：

在语种识别过程中,为提取语音信号中的空间特征以及时序特征,从而达到提高多语种识别准确率的目的,提出了一种利用卷积循环神经网络(convolutional recurrent neural network,CRNN)混合神经网络的多语种识别模型.该模型首先提取语音信号的声学特征;然后将特征输入到卷积神经网络(convolutional neural network,CNN)提取低维度的空间特征;再通过空间金字塔池化层(spatial pyramid pooling layer,SPP layer)对空间特征进行规整,得到固定长度的一维特征;最后将其输入到循环神经网络(recurrenrt neural network,CNN)来判别语种信息.为验证模型的鲁棒性,实验分别在3个数据集上进行,结果表明:相比于传统的CNN和RNN,CRNN混合神经网络对不同数据集的语种识别准确率均有提高,其中在8语种数据集中时长为5 s的语音上最为明显,分别提高了 5.3％和6.1％.

关键词：语种识别、卷积循环神经网络混合神经网络、卷积神经网络、循环神经网络

所属期刊栏目：33

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金61761025

在线出版日期：2022-09-19（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：620-628

英文信息展示

期刊专题