10.19678/j.issn.1000-3428.0064388
基于尺度相关-双向长短期记忆网络模型的说话人识别
说话人识别通过语音对说话人进行身份认证,然而大部分语音在时域与频域具有分布多样性,目前说话人识别中的卷积神经网络深度学习模型普遍使用单一的卷积核进行特征提取,无法提取尺度相关特征及时频域特征.针对这一问题,提出一种尺度相关卷积神经网络-双向长短期记忆(SCCNN-BiLSTM)网络模型用于说话人识别.通过尺度相关卷积神经网络在每一层特征抽象过程中调整感受野大小,捕获由尺度相关块组成的尺度特征信息,同时引入双向长短期记忆网络保留与学习语音数据的多尺度特征信息,并在最大程度上提取时频域特征的上下文信息.实验结果表明,SCCNN-BiLSTM网络模型在LibriSpeech和AISHELL-1数据集上迭代50000次时的等错率为7.21%和6.55%,相比于ResCNN基线网络模型提升了25.3%和41.0%.
说话人识别、深度学习、尺度相关卷积、感受野、长短期记忆网络
49
TP391.42(计算技术、计算机技术)
国家自然科学基金11704229
2023-04-19(万方平台首次上网日期,不代表论文的发表时间)
共8页
289-296