10.3969/j.issn.1006-9348.2022.11.051
自编码器和LSTM在混合语音情感的应用
针对混合语音情感识别中,传统识别方法不能充分考虑语种之间的差异性,导致分类准确率偏低的问题,提出了自编码器(autoencoder)与长短时记忆(Long Short Term Memory,LSTM)模型相结合的方法,通过提取 MFCC,MEL Spectrogram Fre-quency,Chroma 三种特征获得180维特征.并利用自编码器获取一个更高维度、更深层次的500维特征,通过LSTM进行建模,提高语音情感分类的准确性.使用德语EMO-DB和中文CASIA语音库进行分类实验,研究表明,自编码器提取出的深度特征更适合混合语音情感分类.较传统分类方法,使用自编码器+LSTM进行分类,最优识别结果可提升7.5%.
自编码器、长短时记忆、混合语音情感识别
39
TP391.9(计算技术、计算机技术)
国家青年科学基金项目;山西省青年科技研究基金;山西省高等学校科技创新项目;山西财经大学青年科研基金项目
2023-01-07(万方平台首次上网日期,不代表论文的发表时间)
共5页
258-262