10.13705/j.issn.1671-6841.2021295
基于时空特征融合的语音情感识别
语音情感识别在人机交互中有重要的作用.在语音情感识别领域中,通常使用迁移学习解决语音情感数据难获取的问题,但忽略了语音数据的时序信息和空间信息.考虑到AlexNet网络中的参数来自图像数据集,不能完全表现语音数据的空间信息,并且不包含时序信息,因此提出通过膨胀卷积网络提取语音频谱图的空间信息,添加双向长短期记忆神经网络提取时序信息,并进行时空特征融合;针对语音中含有大量与情感无关的特征,通过将对数梅尔频谱图的三个通道作为输入,减少情感无关因素的影响,并添加注意力机制,选取情感权重大的时域信号.用公开数据集实验证明了方法的有效性,在WAR和UAR上都有提升.
语音情感识别、膨胀卷积网络、长短期记忆神经网络、注意力机制
54
TP391.4(计算技术、计算机技术)
湖北省教育厅青年项目;湖北省教育厅科研计划重点项目
2022-05-05(万方平台首次上网日期,不代表论文的发表时间)
共7页
42-48