DOI：10.3969/j.issn.1006-9348.2022.11.051

自编码器和LSTM在混合语音情感的应用

引用

摘要：

针对混合语音情感识别中,传统识别方法不能充分考虑语种之间的差异性,导致分类准确率偏低的问题,提出了自编码器(autoencoder)与长短时记忆(Long Short Term Memory,LSTM)模型相结合的方法,通过提取 MFCC,MEL Spectrogram Fre-quency,Chroma 三种特征获得180维特征.并利用自编码器获取一个更高维度、更深层次的500维特征,通过LSTM进行建模,提高语音情感分类的准确性.使用德语EMO-DB和中文CASIA语音库进行分类实验,研究表明,自编码器提取出的深度特征更适合混合语音情感分类.较传统分类方法,使用自编码器+LSTM进行分类,最优识别结果可提升7.5％.

关键词：自编码器、长短时记忆、混合语音情感识别

所属期刊栏目：39

分类号：TP391.9(计算技术、计算机技术)

资助基金：国家青年科学基金项目;山西省青年科技研究基金;山西省高等学校科技创新项目;山西财经大学青年科研基金项目

在线出版日期：2023-01-07（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：258-262

英文信息展示

期刊专题