基于增量方法的卷积语音情感识别网络
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.12066/j.issn.1007-2861.2332

基于增量方法的卷积语音情感识别网络

引用
提出了一种新颖的语音情感识别结构,从声音文件中提取梅尔频率倒谱系数(Mel-scale frequency cepstral coefficients,MFCCs)、线性预测倒谱系数(linear predictive cepstral coefficients,LPCCs)、色度图、梅尔尺度频谱图、Tonnetz表示和频谱对比度特征,并将其作为一维卷积神经网络(convolutional neural network,CNN)的输入.构建由一维卷积层、Dropout层、批标准化层、权重池化层、全连接层和激活层组成的网络,并使用Ryerson情感说话/歌唱视听(Ryerson audio-visual database of emotional speech and song,RAVDESS)数据集、柏林语音数据集(Berlin emotional database,EMO-DB)、交互式情绪二元运动捕捉(interactive emotional dyadic motion capture,IEMOCAP)数据集这 3 个数据集的样本来识别情感.为提高分类精度,利用增量方法修改初始模型.为解决网络自动处理情感信息在话语中分布不均匀的问题,采用了一种基于注意力机制的加权池方法来生成更有效的话语级表征.实验结果显示:该模型在RAVDESS和IEMOCAP数据集上的性能都优于已有的方法;对于EMO-DB,该模型仅次于一种基线方法,但其在通用性、简单性和适用性方面都具有优势.

语音情感识别、卷积神经网络、注意力机制

29

TN912.34

2023-04-26(万方平台首次上网日期,不代表论文的发表时间)

共17页

24-40

相关文献
评论
暂无封面信息
查看本期封面目录

上海大学学报(自然科学版)

1007-2861

31-1718/N

29

2023,29(1)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn