10.16798/j.issn.1003-0530.2017.03.018
多粒度特征融合的维度语音情感识别方法
针对传统维度语音情感识别系统采用全局统计特征造成韵律学细节信息丢失以及特征演化规律缺失的问题,本文提出了一种基于不同时间单元的多粒度特征提取方法,提取了短时帧粒度、中时段粒度以及长时窗粒度特征,并提出了一种可以融合多粒度特征的基于认知机理的回馈神经网络(Cognition-Inspired Recurrent Neural Network,CIRNN).该网络模拟了人脑处理语音信号时“循序渐进”的过程,通过融合多粒度特征,使得不同时间单元的特征均参与网络训练,既突出了情感的时序性,也保留了全局特性对情感识别的作用,实现多层级信息融合.该网络同时模拟大脑运用以往经验模式进行对比的过程,在网络中引入记忆层,用于记忆上文情感特征,强化了上下文信息对识别的影响作用.本文将该方法用于VAM维度语料库的维度情感识别,分别从Activation、Dominance、Valence三个维度进行测试,平均相关系数为0.66,识别结果明显优于传统ANN和SVR的识别结果.
维度语音情感识别、多粒度特征融合、基于认知机理的回馈神经网络、认知机理
33
TP391.42(计算技术、计算机技术)
国家自然科学基金资助项目61171186,61271345,61671187;深圳市基础研究项目JCYJ20150929143955341;语言语音教育部-微软重点实验室开放基金资助项目HIT.KLOF.20150XX,HIT.KLOF.20160xx;中央高校基本科研业务费专项资金HIT.NSRIF.2012047
2017-06-23(万方平台首次上网日期,不代表论文的发表时间)
共9页
374-382