基于改进LSTM的儿童语音情感识别模型

引用

摘要：

为实现不同儿童情感需求状态下帧级语音特征的有效获取,建立一种基于改进长短时记忆(LSTM)网络的儿童语音情感识别模型.采用帧级语音特征代替传统统计特征以保留原始语音中的时序关系,通过引入注意力机制将传统遗忘门和输入门转换为注意力门,并根据自定义的深度策略计算得到深度注意力门,从而提高语音情感识别性能.实验结果表明,在Fau Aibo儿童情感数据语料库及婴儿哭声情感需求数据库上,该模型在召回率和F1分数上相比基于传统LSTM的识别模型分别提高了3.14％、5.50％和1.84％、5.49％,在CASIA中文情感数据库上,其相比基于传统LSTM和GRU的识别模型训练时间更短、儿童语音情感识别率更高.

关键词：儿童情感、时序关系、帧级语音特征、深度注意力门、长短时记忆网络

所属期刊栏目：46

分类号：TP183(自动化基础理论)

资助基金：国家自然科学基金61673108

在线出版日期：2020-07-07（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：40-49

英文信息展示

期刊专题