10.12066/j.issn.1007-2861.2332
基于增量方法的卷积语音情感识别网络
提出了一种新颖的语音情感识别结构,从声音文件中提取梅尔频率倒谱系数(Mel-scale frequency cepstral coefficients,MFCCs)、线性预测倒谱系数(linear predictive cepstral coefficients,LPCCs)、色度图、梅尔尺度频谱图、Tonnetz表示和频谱对比度特征,并将其作为一维卷积神经网络(convolutional neural network,CNN)的输入.构建由一维卷积层、Dropout层、批标准化层、权重池化层、全连接层和激活层组成的网络,并使用Ryerson情感说话/歌唱视听(Ryerson audio-visual database of emotional speech and song,RAVDESS)数据集、柏林语音数据集(Berlin emotional database,EMO-DB)、交互式情绪二元运动捕捉(interactive emotional dyadic motion capture,IEMOCAP)数据集这 3 个数据集的样本来识别情感.为提高分类精度,利用增量方法修改初始模型.为解决网络自动处理情感信息在话语中分布不均匀的问题,采用了一种基于注意力机制的加权池方法来生成更有效的话语级表征.实验结果显示:该模型在RAVDESS和IEMOCAP数据集上的性能都优于已有的方法;对于EMO-DB,该模型仅次于一种基线方法,但其在通用性、简单性和适用性方面都具有优势.
语音情感识别、卷积神经网络、注意力机制
29
TN912.34
2023-04-26(万方平台首次上网日期,不代表论文的发表时间)
共17页
24-40