基于领域自适应子空间的无监督跨库语音情感识别方法

引用

摘要：

一种基于领域自适应子空间的无监督跨库语音情感识别方法，包括获取语音序列、构成源域及目标域、对低维描述子进行统计函数处理、得到语音序列的全局特征向量、建立基于领域自适应的子空间模型、自学习得到投影矩阵及其对应的语音情感类别标签；能够进行不同特征分布数据库之间的学习，有良好的鲁棒性，使识别准确更高，且方法简单，容易实现。

专利类型：发明专利

申请/专利号：CN202011203086.X

申请日期：2020-11-02

公开/公告号：CN112397092A

公开/公告日：2021-02-23

主分类号：G10L25/63(2013.01)

申请/专利权人:天津理工大学

发明/设计人:刘娜;张宝峰;朱均超;刘欣宜;彭永胜

主申请人地址:300384 天津市西青区宾水西道391号

专利代理机构:天津市君砚知识产权代理有限公司

代理人:程昊

国别省市代码:天津;12

权利要求：

1.一种基于领域自适应子空间的无监督跨库语音情感识别方法，其特征在于它包括以下步骤：步骤一：获取两个公开的语音数据库，每个数据库中存储有语音序列和对应的语音情感类别标签，分别记作跨库语音情感识别的源域和目标域；步骤二：对源域和目标域中的每个语音序列的低维描述子进行统计函数处理，将统计得到的情感特征作为对应语音序列的全局特征向量；步骤三：构建基于领域自适应的子空间模型，利用步骤一中的源域和目标域数据库语音序列全局特征对该模型进行学习，在学习过程中源域数据库标签给定，目标域数据库标签完全未知，学习到一个能够连接语音数据库样本特征和样本标签信息的投影矩阵；步骤四：对于目标域中待识别的语音情感，按照步骤二得到的语音序列的全局特征向量，采用步骤三中学习到的投影矩阵，得到其对应的语音情感类别标签。 2.根据权利要求1所述一种基于领域自适应子空间的无监督跨库语音情感识别方法，其特征在于所述步骤二具体由以下步骤构成： (2-1)从步骤一中建立的存储有语音序列的语音数据库，对每段语音序列提取声学的低维描述子，包括：过零率、能量平方根、基音频率、信噪比及Mel频率倒谱系数，分别记作MFCC 1-MFCC 12； (2-2)对步骤(2-1)提取的每段语音序列的声学的低维描述子进行统计函数的处理，统计函数包括：标准差、均值、峰度、偏度、最大值、最小值、相对范围、相对位置，两个线性回归系数及其均方误差； (2-3)将步骤(2-2)统计得到的情感特征作为对应语音序列的全局特征向量。 3.根据权利要求1所述一种基于领域自适应子空间的无监督跨库语音情感识别方法，其特征在于所述步骤三中的领域自适应子空间模型具体是指：并有，其中，表示寻找使括号中表达式最小的矩阵U，Ls为源域特征矩阵Xs对应的标签矩阵，UT表示U的转置，Xs表示源域样本特征矩阵，Xt表示目标域样本特征矩阵，且和代表两个不同特征分布的语音序列数据库，d表示特征向量的维度，Ns和Nt分别表示源域和目标域语音情感样本序列数目，表示源域中所有特征向量的均值，表示目标域中所有特征向量的均值，Σs和Σt分别表示源域和目标域特征向量的协方差，λ1和λ2是平衡参数，用来控制目标函数公式(1)中三部分之间的平衡。 4.根据权利要求3所述一种基于领域自适应子空间的无监督跨库语音情感识别方法，其特征在于所述源域特征矩阵Xs对应的标签矩阵Ls在无监督的跨库语音情感识别中，源域语音情感序列的标签是已知的，将该标签信息定义成向量的形式，即其中c是语音情感状态编号；定义标签矩阵Ls中第i列的第j个元素li,j为： 5.根据权利要求1所述一种基于领域自适应子空间的无监督跨库语音情感识别方法，其特征在于所述步骤三中对领域自适应的子空间模型进行学习的具体方法是指： (3-1)将式(1)所描述的领域自适应子空间模型转换成如式(2)的优化结构：其中，ΔΣst＝Σs-Σt； (3-2)利用增广拉格朗日乘子法对式(2)进行求解，通过引入两个辅助变量Q和K，则式(2)可转化为： s.t.U＝K和U＝Q 其拉格朗日函数如式(4)所示：其中，tr”·”表示矩阵·的迹，T1和T2为拉格朗日乘子，μ＞0为正则化参数； (3-3)对式(4)得到的拉格朗日函数进行求解，即可得到最优投影矩阵U*。 6.根据权利要求5所述一种基于领域自适应子空间的无监督跨库语音情感识别方法，其特征在于所述步骤(3-3)中最优投影矩阵U*的获取，其具体包括以下步骤： (3-3-1)保持投影矩阵U、辅助变量Q、拉格朗日乘子T1和T2不变，迭代更新辅助变量K：则式(3)转化为式(5)：式(5)的解析解为：其中，I是单位矩阵； (3-3-2)保持投影矩阵U、辅助变量K、拉格朗日乘子T1、T2和正则化参数μ不变，更新辅助变量Q，则有： (3-3-3)保持辅助变量Q、K、拉格朗日乘子T1、T2和正则化参数μ不变，更新投影矩阵U，则式(2)转化为式(9)有：式(9)的最佳投影矩阵U*如式(10)所示：其中，qi，t1i，t2i和ki分别是辅助变量Q，拉格朗日乘子T1，T2和辅助变量K的第i行； (3-3-4)分别按照式(11)和式(12)更新拉格朗日乘子T1，T2； T1＝T1+μ(U-K) (11) T2＝T2+μ(U-Q) (12) (3-3-5)按照式(13)更新μ； μ＝min(μmax,ρμ) (13) 其中ρ是比例参数，ρ＞1； (3-3-6)判断式(14)的收敛性： ||U-K||∞＜ε,||U-Q||∞＜ε (14) 其中，ε表示收敛阈值，||·||∞表示就是取向量的最大值；若式(14)收敛，即收敛或迭代次数大于预设值，则输出此时的U、K、T1、T2和μ矩阵，若式(14)不收敛，则重复步骤(3-3-1)至步骤(3-3-6)，继续对模型进行优化。 7.根据权利要求1所述一种基于领域自适应子空间的无监督跨库语音情感识别方法，其特征在于所述步骤四中得到其对应的语音情感类别标签的具体方法包括：对步骤(3-3-3)的优化方法学习的最优投影矩阵U*，根据式(15)为目标域的样本分配情感标签：其中，Xt表示目标域数据库中国语音序列的特征向量集合，代表目标域投影矩阵中第j列的第k个元素，emotion_labels即为预测出的目标与中语音序列的表情标签，从而完成了跨库语音情感识别。

专利专题