基于多条路径积分的语音情感识别方法、系统、设备及介质

引用

摘要：

本发明公开了一种基于多条路径积分的语音情感识别方法、系统、设备及介质，所述方法包括：搭建基于多条路径积分的语音情感识别网络；获取语音情感数据集，并提取语音情感数据集中的语音片段特征；利用语音情感数据集对语音情感识别网络进行训练，得到训练好的语音情感识别网络模型；调用训练好的语音情感识别网络模型，实现语音情感识别。本发明使用普通的语音特征和一种简单的网络架构将路径积分应用在语音情感识别中，能够解决现有语音情感识别方法网络复杂、计算量大、识别准确率不高的技术问题。

专利类型：发明专利

申请/专利号：CN202110287164.7

申请日期：2021-03-17

公开/公告号：CN113012718A

公开/公告日：2021-06-22

主分类号：G10L25/63(2013.01)

申请/专利权人:华南理工大学

发明/设计人:王伟凝;马学东;郭沛榕;李意繁

主申请人地址:510640 广东省广州市天河区五山路381号

专利代理机构:广州市华学知识产权代理有限公司

代理人:李君

国别省市代码:广东;44

权利要求：

1.一种基于多条路径积分的语音情感识别方法，其特征在于，所述方法包括：搭建基于多条路径积分的语音情感识别网络；获取语音情感数据集，并提取语音情感数据集中的语音片段特征；利用语音情感数据集对语音情感识别网络进行训练，得到训练好的语音情感识别网络模型；调用训练好的语音情感识别网络模型，实现语音情感识别。 2.根据权利要求1所述的语音情感识别方法，其特征在于，所述语音情感识别网络包括高层特征提取模块、路径积分模块和情感识别模块；所述高层特征提取模块，用于对输入的原始语音片段特征进行处理，提取不同高层特征；所述路径积分模块，用于将提取的不同高层特征和原始语音片段特征分别进行截断路径积分，得到相应的路径积分特征值，并将得到的路径积分特征值进行拼接；所述情感识别模块，用于对输入的拼接后的路径积分特征值进行情感预测，输出情感预测结果。 3.根据权利要求2所述的语音情感识别方法，其特征在于，所述利用语音情感数据集对语音情感识别网络进行训练，得到训练好的语音情感识别网络模型，具体包括：初始化高层特征提取模块和情感识别模块的网络权值；将语音情感数据集划分为训练集和测试集，加载训练集和测试集对应的数据特征；设置学习率、学习率衰减策略以及每一次训练迭代输入的语音片段特征数量；选用优化器，利用训练集对语音情感识别网络进行训练，取在测试集上准确率最高的语音情感识别网络作为语音情感识别网络模型。 4.根据权利要求2-3任一项所述的语音情感识别方法，其特征在于，所述高层特征提取模块采用机器学习方法、卷积神经网络、循环神经网络和长短期记忆网络中的至少两种对输入的原始语音片段特征进行处理，提取不同高层特征。 5.根据权利要求2-3任一项所述的语音情感识别方法，其特征在于，所述高层特征包括维度间相关信息以及时间相关信息。 6.根据权利要求2-3任一项所述的语音情感识别方法，其特征在于，所述情感识别模块采用机器学习方法或深度神经网络对输入的拼接后的路径积分特征值进行情感预测，输出情感预测结果。 7.根据权利要求1-3任一项所述的语音情感识别方法，其特征在于，所述提取语音情感数据集中的语音片段特征，具体为：对语音情感数据集中的语音片段进行分帧操作，提取语音片段特征，所述语音片段特征包括MFCC、Fbank和语谱图。 8.一种基于多条路径积分的语音情感识别系统，其特征在于，所述系统包括：搭建单元，用于搭建基于多条路径积分的语音情感识别网络；获取单元，用于获取语音情感数据集，并提取语音情感数据集中的语音片段特征；训练单元，用于利用语音情感数据集对语音情感识别网络进行训练，得到训练好的语音情感识别网络模型；识别单元，用于调用训练好的语音情感识别网络模型，实现语音情感识别。 9.一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1-7任一项所述的语音情感识别方法。 10.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-7任一项所述的语音情感识别方法。

专利专题