10.12068/j.issn.1005-3026.2020.12.002
基于CGRU模型的语音情感识别研究与实现
目前普遍使用深度神经网络用于语音情感特征的提取,但使用哪种神经网络模型、如何缓解模型过拟合问题还需进一步研究.针对这些问题,提出了一种结合一维卷积(CNN)以及门控循环单元(GRU)的CGRU模型,从原始语音信号的MFCC特征中提取语音的低阶以及高阶情感特征,并通过随机森林对其进行特征选择,在三种公用的情感语料库EMODB,SAVEE,RAVDESS上分别取得了79%,69% 以及75% 的识别精度.通过添加高斯噪声及改变速度等方法来增加样本量实现数据扩充,进一步提高了识别精度.通过在线识别系统验证了模型在实际环境中的可用性.
语音情感识别、梅尔频率倒谱系数、CGRU模型、随机森林、数据扩充
41
TN912.3
国家自然科学基金资助项目61773108
2020-12-23(万方平台首次上网日期,不代表论文的发表时间)
共6页
1680-1685