10.16798/j.issn.1003-0530.2021.10.006
基于高效通道注意力机制的语音情感识别方法
传统语音处理方式是把语音样本分割成固定长度的片段,但这种语音样本的切割会导致语音情感分类准确性下降.本文引入循环填充法处理可变长度的log-Mel谱图,该方法能够更好的利用时间动态信息,同时可以减少填充的无效数据对模型参数学习的干扰.由于人类的情感只能在语音中某些特定的时刻出现,为了寻找关键情感特征,本文构建了基于高效通道注意力机制的语音情感识别模型,其中高效通道注意力机制能够计算通道图的重要性,有选择的强调通道图,改进特定情感的表达.本文在交互式情感二元动作捕捉(IEMOCAP)数据库上进行相关实验.在IEMOCAP上采用循环填充法的加权精度(WA)和非加权精度(UA)分别达到73.2%和70.9%,采用本文提出模型的WA和UA分别达到76.0%和73.4%.
卷积神经网络;高效通道注意力机制;变长序列
37
TN912.34
2021-12-10(万方平台首次上网日期,不代表论文的发表时间)
共8页
1835-1842