10.13880/j.cnki.65-1174/n.2021.21.049
基于三层结构优化卷积神经网络的语音识别
目前说话人、环境及发音多样性仍是语音识别声学建模中需解决的主要难题,为了克服这些不利因素的影响,本文将经过三层结构优化后的卷积神经网络应用于语音识别,利用卷积神经网络的卷积不变性克服语音信号的多样性,采用更符合生物神经元特性的新型激活函数改进卷积层缓解梯度消失的问题;利用中间池化方法改进池化层、减小特征提取误差,使用卷积层代替全连接层的方式降低模型复杂度,再通过与对比方法进行多种指标评价,结果表明:本文提出的方法较对比算法在中文语音、英文语音两种数据集下平均识别错误率分别下降22.05%和20.27%.比传统卷积神经网络模型的损失值相对减小40%,在一定程度上提升了模型的泛化能力.
声学建模、三层结构优化、卷积神经网络、语音识别、识别率、泛化性能
40
TN912.3
国家自然科学基金;陕西省科技计划
2022-04-11(万方平台首次上网日期,不代表论文的发表时间)
共6页
127-132