基于深度特征与声学特征寻优融合的语音情感识别方法

引用

摘要：

本发明公开了一种基于深度特征与声学特征寻优融合的语音情感识别方法，提出采用遗传算法对深度瓶颈特征和声学特征进行寻优融合的方法来实现高鲁棒性语音情感识别的方法，克服了现有语音情感识别方法的不足。该方法与传统基于单一深度特征或声学特征的语音情感识别方法相比较，本发明可以从不同的层次挖掘丰富的语音情感信息，对语音情感信息进行更加全面地描述，从而使得系统的识别率更高，系统鲁棒性得到进一步提升，可以很好地应用于智能人机交互中。

专利类型：发明专利

申请/专利号：CN202010855013.2

申请日期：2020-08-24

公开/公告号：CN111899766A

公开/公告日：2020-11-06

主分类号：G10L25/63(2013.01)

申请/专利权人:南京邮电大学

发明/设计人:孙林慧;黄译庆;傅升;李平安

主申请人地址:210023 江苏省南京市雨花台区西春路1号

专利代理机构:南京苏科专利代理有限责任公司

代理人:姚姣阳

国别省市代码:江苏;32

权利要求：

1.一种基于深度特征与声学特征寻优融合的语音情感识别方法，其特征在于，包括以下步骤：步骤1、输入语料库中的语音信号，对语音信号进行预处理并提取语音信号的声学特征；步骤2、提取语音信号的傅里叶系数特征，将其作为DNN输入，训练一个DNN用于提取语音信号的深度瓶颈特征；步骤3、采用Fisher准则对提取的声学特征以及深度瓶颈特征进行特征选择，降低特征冗余度，得到情感区分度高的优质特征；步骤4、采用遗传算法实现声学特征与深度瓶颈特征的寻优融合，声学特征表征情感信息的物理层面信息，深度瓶颈特征表征与情感分类标签信息高度相关的信息，两者融合提升语音情感识别效果；步骤5、根据寻优结果将测试数据进行组合，得到融合的测试特征集，将其作为支持向量机(Support Vector Machine，SVM)的输入，对SVM进行训练，将训练得到的SVM用于实现语音情感识别，并对所提出的基于寻优融合的语音情感识别方法进行性能评估。 2.根据权利要求1所述的语音情感识别方法，其特征在于：所述步骤1包括：步骤1-1：对每一句输入的时域连续语音信号进行采样，然后采用预加重、分帧加窗、端点检测技术对语音信号进行预处理，得到预处理后的信号；步骤1-2：计算预处理后语音信号的声学特征，声学特征包括MFCC、基音频率、过零率、短时能量；步骤1-3：计算每条语音的统计特征，即分别对每条语音的各帧信号进行统计，统计特征包含最大值、最小值、中值、方差、均值，最后得到的统计特征即是每条语音的声学特征。 3.根据权利要求1所述的语音情感识别方法，其特征在于：所述步骤2包括：步骤2-1：先计算预处理后语音信号的傅里叶系数特征，将得到的傅里叶系数特征作为DNN的输入；步骤2-2：首先对DNN进行无监督的预训练，然后引入有监督的误差反向传播进行参数的微调，得到训练好的DNN模型；步骤2-3：将所有训练语音信号重新输入到训练完成的DNN，获取DNN在第三层的输出，也即是瓶颈层的输出，此输出即是每一帧语音信号的深度瓶颈特征；步骤2-4：计算每帧训练语音的深度瓶颈特征的统计特征，得到特征即是每条语音的深度瓶颈特征，统计特征包含最大值、最小值、均值、方差、中值。 4.根据权利要求3所述的语音情感识别方法，其特征在于：所述步骤3包括：步骤3-1：根据步骤1、步骤2中所得到的声学特征以及深度瓶颈特征，采用Fisher准则分别计算声学特征和深度瓶颈特征中每一维特征的Fisher值；步骤3-2：将步骤3-1中由深度瓶颈特征以及声学特征得到Fisher值分别进行排序，删除Fisher值低于阈值P的深度瓶颈特征和声学特征，完成特征选择过程。 5.根据权利要求1-4任一项所述的语音情感识别方法，其特征在于：所述步骤4包括：步骤4-1：采用遗传算法对特征选择后的深度瓶颈特征和声学特征进行寻优融合，针对声学特征中的MFCC、短时能量、过零率、基音频率以及深度瓶颈特征分别标记为”x1，x2，x3，x4，x5”，并针对每类特征赋予一个初始权值，设为”w1，w2，w3，w4，w5”；步骤4-2：将初始权值与特征的加权融合作为遗传算法输入，即输入为”w1*x1，w2*x2，w3*x3，w4*x4，w5*x5”，初始化遗传算法，并设置遗传算法的目标函数为识别率，启动遗传算法对融合权值进行寻优；步骤4-3：遗传算法输出权值寻优结果并保存，将其作为测试和训练SVM数据的融合权值，声学特征和深度瓶颈特征以此权值进行加权融合。 6.根据权利要求5所述的语音情感识别方法，其特征在于：所述步骤4-2包括：采用遗传算法对权值组合进行寻优，具体步骤如下： A.初始化权重，对权重组合进行二进制编码，并生成初始种群； B.解码得到权重组合，并以加权方式组合特征。将组合特征导入支持向量机进行训练，并将支持向量机获得的语音情感识别结果作为适应度函数。适应度高的个体被保留的可能性越大； C.进行选择操作，根据适应度函数模拟适者生存规律，从群体中选取优秀个体作为父代，产生新的群体； D.进行变异操作，从一个种群中随机选择一对个体，并交换他们的一些基因，形成新的个体； E.对于群体中的每个个体，以一定的突变概率改变个体的基因，形成新个体加入到种群当中； F.解码权重并计算适合度值。同时，比较子代和父代的语音情感识别率，以更新最佳个体； G.检查迭代次数或适合度值是否满足终止条件：如果不满足，重复步骤C至F；如果满足条件，转到步骤H； H.输出最优权重组合。 7.根据权利要求6所述的语音情感识别方法，其特征在于：所述步骤5包括：步骤5-1：根据步骤4中遗传算法寻优得到的权重组合，提取测试数据的声学特征和深度瓶颈特征，以此次权重组合进行加权融合；步骤5-2：将融合得到的特征集用于SVM训练，训练得到的SVM实现语音情感识别。 8.根据权利要求7所述的语音情感识别方法，其特征在于：根据步骤4中的寻优结果，将测试数据按照权值组合进行融合，可得到特征集如公式，将其输入到SVM中进行训练；所述公式为： T＝”w1”*x1,w2”*x2,w3”*x3,w4”*x4,w5”*x5” 训练求取SVM最优超平面的目标函数为： s.t.yi(wTxi+b)≥1-ξi,ξi≥0,i＝1,2,...,N 其中，C代表惩罚系数，可以控制样本错误分类的惩罚，平衡模型的复杂性和损失误差。ξi代表松弛因子，N代表特征的维数，w代表支持向量，b为常数。 9.根据权利要求1所述的语音情感识别方法，其特征在于：所述语音信号为wav格式。 10.根据权利要求1所述的语音情感识别方法，其特征在于：根据公式分别计算每一维声学特征和深度瓶颈特征的Fisher系数，并对Fisher系数从低到高进行排序，针对声学特征只选取Fisher系数大的前105维，针对深度瓶颈特征则选取Fisher系数大的前100维；特征筛选后，声学特征包含105维，深度瓶颈特征包含100维；所述公式为：其中，μ代表第d维特征的均值，σ代表第d维特征的标准差。

专利专题