10.19678/j.issn.1000-3428.0064054
基于动态卷积递归神经网络的语音情感识别
动态情感特征是说话人独立语音情感识别中的重要特征.由于缺乏对语音中时频信息的充分挖掘,现有动态情感特征表征能力有限.为更好地提取语音中的动态情感特征,提出一种动态卷积递归神经网络语音情感识别模型.基于动态卷积理论构建一种动态卷积神经网络提取语谱图中的全局动态情感信息,使用注意力机制分别从时间和频率维度对特征图关键情感区域进行强化表示,同时利用双向长短期记忆网络对谱图进行逐帧学习,提取动态帧级特征及情感的时序依赖关系.在此基础上,利用最大密度散度损失对齐新个体特征与训练集特征分布,降低个体差异性对特征分布产生的影响,提升模型表征能力.实验结果表明,该模型在CASIA中文情感语料库、Emo-db德文情感语料库及IEMOCAP英文情感语料库上分别取得59.50%、88.01%及66.90%的加权平均精度,相较HuWSF、CB-SER、RNN-Att等其他主流模型识别精度分别提升1.25~16.00、0.71~2.26及2.16~8.10个百分点,验证了所提模型的有效性.
语音情感识别、特征提取、动态特征、注意力机制、神经网络
49
TP391.4(计算技术、计算机技术)
国家自然科学基金;河南省高等学校重点科研项目;河南省高等学校重点科研项目
2023-04-19(万方平台首次上网日期,不代表论文的发表时间)
共7页
125-130,137