10.13705/j.issn.1671-6833.2021.06.008
基于时空特征的语音情感识别模型TSTNet
针对社交语音由于语气、音调、语速等差异以及填充信息丢失或冗余等问题,提出一种基于时空特征的语音情感识别方法.该方法利用卷积神经网络(CNN)和双向循环神经网络(BiGRU)技术,包含空间特征提取、时间特征提取和特征融合3个模块.考虑到音频数据内容长短不一,首先对音频数据进行预处理,应用3种补零填充方法,得到不同尺度的语谱图.设计了空间特征提取方法捕获音频的局部特征,并利用时间特征提取方法获取音频数据的时间特征和前后语义关系,从而得到3个时空特征向量.此外,融合了时空特征向量并通过全连接层进行语音情感分类.利用科大讯飞语音情感数据集进行了数值实验,实验结果与传统语音情感识别模型的实验结果相比,在准确率、精确率、召回率和F1值等4项指标上均取得了较好结果.
语音情感识别;语谱图;时空特征
42
TP39(计算技术、计算机技术)
河南省高等学校青年骨干教师培养计划22020GGJS014
2021-12-16(万方平台首次上网日期,不代表论文的发表时间)
共6页
28-33