10.16798/j.issn.1003-0530.2021.10.011
基于Sinc-Transformer模型的原始语音情感识别
考虑传统语音情感识别任务中,手动提取声学特征的繁琐性,本文针对原始语音信号提出一种Sinc-Transformer(SincNet Transformer)模型来进行语音情感识别任务.该模型同时具备SincNet层及Transformer模型编码器的优点,利用SincNet滤波器从原始语音波形中捕捉一些重要的窄带情感特征,使其整个网络结构在特征提取过程中具有指导性,从而完成原始语音信号的浅层特征提取工作;利用两层Transformer模型编码器进行二次处理,以提取包含全局上下文信息的深层特征向量.在交互式情感二元动作捕捉数据库(IEMOCAP)的四类情感分类中,实验结果表明本文提出的Sine-Transformer模型准确率与非加权平均召回率分别为64.14%和65.28%.同时与基线模型进行对比,所提模型能有效地提高语音情感识别性能.
语音情感;Transformer模型编码器;SincNet滤波器;原始语音
37
TN912.34
2021-12-10(万方平台首次上网日期,不代表论文的发表时间)
共9页
1880-1888