DOI：10.13705/j.issn.1671-6833.2021.06.008

基于时空特征的语音情感识别模型TSTNet

引用

摘要：

针对社交语音由于语气、音调、语速等差异以及填充信息丢失或冗余等问题,提出一种基于时空特征的语音情感识别方法.该方法利用卷积神经网络(CNN)和双向循环神经网络(BiGRU)技术,包含空间特征提取、时间特征提取和特征融合3个模块.考虑到音频数据内容长短不一,首先对音频数据进行预处理,应用3种补零填充方法,得到不同尺度的语谱图.设计了空间特征提取方法捕获音频的局部特征,并利用时间特征提取方法获取音频数据的时间特征和前后语义关系,从而得到3个时空特征向量.此外,融合了时空特征向量并通过全连接层进行语音情感分类.利用科大讯飞语音情感数据集进行了数值实验,实验结果与传统语音情感识别模型的实验结果相比,在准确率、精确率、召回率和F1值等4项指标上均取得了较好结果.

关键词：语音情感识别;语谱图;时空特征

所属期刊栏目：42

分类号：TP39(计算技术、计算机技术)

资助基金：河南省高等学校青年骨干教师培养计划22020GGJS014

在线出版日期：2021-12-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：28-33

英文信息展示

期刊专题