融合注意力和辅助分类器的膨胀残差网络语音情感识别研究
针对现有语音情感数据集中样本数不足以支撑训练深度神经网络以及层数不断加深带来的梯度爆炸问题,在使用高斯白噪声和随机时频掩蔽对数据集进行增强的基础上,提出了一种融合通道、空间注意力和辅助分类器的膨胀残差网络(dilated residual network with auxiliary calssifier and channel,spatial attention,DRN-A-CASA)语音情感识别方法.首先,使用增强后的梅尔谱图数据集作为网络模型的输入,并在残差网络原卷积层中采用膨胀卷积来扩大特征提取感受野;其次,在残差网络 layer3 层后添加辅助分类器分支,加速网络训练并改进损失函数;最后,在 layer4 层中添加注意力机制关注情感特征,实现语音情感的分类.实验结果表明,基于 DRN-A-CASA 的模型在 RAVDESS 及 EMODB 两个数据集上分别达到了92.91%和 89.15%的识别准确率,验证了所提方法的有效性和泛化性能.
语音情感识别、残差网络、注意力、数据增强
42
TP391.4;TN912.3(计算技术、计算机技术)
国家自然科学基金;中国学位与研究生教育学会重点课题;西安市科技局科研计划项目
2023-09-15(万方平台首次上网日期,不代表论文的发表时间)
共7页
19-25