基于联合分布最小二乘回归的跨数据库语音情感识别方法及装置

引用

摘要：

本发明公开了一种基于联合分布最小二乘回归的跨数据库语音情感识别方法及装置，方法包括：(1)获取训练数据库和测试数据库，其中，训练语音数据库中包含有若干语音片段和对应的语音情感类别标签，测试数据库中仅包含有若干待识别语音片段；(2)利用若干声学低维描述子对语音片段进行处理并进行统计，将统计得到的每个信息作为一个情感特征，并将多个情感特征组成向量作为对应语音片段的特征向量；(3)建立基于联合分布的最小二乘回归模型，利用训练数据库与测试数据库联合训练，得到稀疏投影矩阵；(4)对于待识别语音片段，按照步骤(2)得到特征向量，并采用学习到的稀疏投影矩阵，得到对应的语音情感类别标签。本发明可以适应不同环境，准确率更高。

专利类型：发明专利

申请/专利号：CN202010372728.2

申请日期：2020-05-06

公开/公告号：CN111583966A

公开/公告日：2020-08-25

主分类号：G10L25/63(2013.01)

申请/专利权人:东南大学

发明/设计人:宗源;江林;张佳成;郑文明;江星洵;刘佳腾

主申请人地址:211102 江苏省南京市江宁区东南大学路2号

专利代理机构:南京苏高专利商标事务所(普通合伙)

代理人:冯艳芬

国别省市代码:江苏;32

权利要求：

1.一种基于联合分布最小二乘回归的跨数据库语音情感识别方法，其特征在于该方法包括： (1)获取两个语音数据库，分别作为训练数据库和测试数据库，其中，训练语音数据库中包含有若干语音片段和对应的语音情感类别标签，测试数据库中仅包含有若干待识别语音片段； (2)利用若干声学低维描述子对语音片段进行处理并进行统计，将统计得到的每个信息作为一个情感特征，并将多个情感特征组成向量作为对应语音片段的特征向量； (3)建立基于联合分布的最小二乘回归模型，利用已知标签的训练数据库与未知标签的测试数据库对其联合训练，得到一个连接语音片段与语音情感类别标签之间的稀疏投影矩阵； (4)对于测试数据库中待识别语音片段，按照步骤(2)得到特征向量，并采用学习到的稀疏投影矩阵，得到对应的语音情感类别标签。 2.根据权利要求1所述的基于联合分布最小二乘回归的跨数据库语音情感识别方法，其特征在于：步骤(2)具体包括： (2-1)对于每个语音片段，计算其16个声学低维描述子值和对应增量参数；所述16个声学低维描述子分别为：时间信号过零率、帧能量均方根、基音频率、谐波信噪比以及梅尔顿频率倒谱系数1-12； (2-2)对于每个语音片段，分别对其16个声学低维描述子进行12种统计函数处理，所述12种统计函数分别为求平均值、标准差、峰态、偏度、最大值、最小值、相对位置、相对范围，以及两个线性回归系数及其均方误差； (2-3)将统计得到的每个信息作为一个情感特征，并将多个情感特征组成向量作为对应语音片段的特征向量。 3.根据权利要求1所述的基于联合分布最小二乘回归的跨数据库语音情感识别方法，其特征在于：步骤(3)建立的最小二乘回归模型为：式中，表示找到使括号内式子最小的矩阵P，Ls∈Rc×n为训练数据库语音片段的语音情感类别标签向量，C为语音情感类别的类数，n为训练数据库语音片段的个数，Xs∈Rd×n为训练数据库语音片段的特征向量，d为特征向量的维数，P∈Rd×c为稀疏投影矩阵，PT为P的转秩矩阵，为Frobenius范数的平方，λ、μ为控制正则项的权衡系数，Xt∈Rd×m为测试数据库语音片段的特征向量，m为测试数据库语音片段的段数，分别为训练数据库、测试数据库中情感类别属于第c类的语音片段的集合，nc、mc分别为测试数据库中情感类别属于第c类的语音片段的个数，|| ||2,1为2,1范数。 4.根据权利要求3所述的基于联合分布最小二乘回归的跨数据库语音情感识别方法，其特征在于：步骤(3)中所述利用已知标签的训练数据库与未知标签的测试数据库对其进行联合训练的方法具体包括： (3-1)将所述最小二乘回归模型转换为： s.t.P＝Q (3-2)通过上述转换后的最小二乘回归模型，估算测试数据库中所有语音片段对应的语音情感类别伪标签形成的伪标签矩阵 (3-3)根据伪标签矩阵统计得到和mc，进而计算得到 (3-4)基于对转换后的最小二乘回归模型利用增广拉格朗日乘子法进行求解，得到投影矩阵估计值 (3-5)根据投影矩阵估计值采用下式对伪标签矩阵进行更新：式中，表示中间辅助变量，为第i列第j行的元素，表示求取第i列元素值最大的一行的行数j，是伪标签矩阵第i列第k行的元素； (3-6)采用更新后的伪标签矩阵返回执行步骤(3-3)，直至达到预设的循环次数后，将循环结束后得到的的投影矩阵估计值作为学习得到的投影矩阵P。 5.根据权利要求4所述的基于联合分布最小二乘回归的跨数据库语音情感识别方法，其特征在于：步骤(3-2)具体包括： (3-2-1)利用转换后的最小二乘回归模型不加正则项的公式，求得投影矩阵估计值的初始值 (3-2-2)根据投影矩阵的初始值采用下式得到伪标签矩阵的初始值：式中，表示中间辅助变量，是伪标签矩阵的初始值第i列第k行的元素。 6.根据权利要求4所述的基于联合分布最小二乘回归的跨数据库语音情感识别方法，其特征在于：步骤(3-4)具体包括： (3-4-1)获取所述最小二乘回归模型的增广拉格朗日方程：式中，T为拉格朗日乘子，k>0为一个正则参数，tr()表示求矩阵的迹； (3-4-2)保持P、T、k不变，更新Q：将增广拉格朗日方程中与变量Q有关的部分提出，得到：求解上式，得到： (3-4-3)保持Q、T、k不变，更新P：将增广拉格朗日方程中与变量P有关的部分提出，得到：求解上式，得到： Pi是P的第i个列向量，Ti是T的第i个列向量； (3-4-4)保持Q、P不变，更新T、k： T＝T+k(P-C) k＝min(ρk,kmax) 式中，kmax是预设k的最大值，ρ是缩放系数，ρ>1； (3-4-5)检查是否收敛：检查||P-Q||∞＜ε是否成立，若否，则返回执行步骤(3-4-2)，若是或迭代次数大于设置值，则将此时的P的值作为所求的稀疏投影矩阵，|| ||∞表示求数据中的最大元素，ε表示收敛阈值。 7.根据权利要求1所述的基于联合分布最小二乘回归的跨数据库语音情感识别方法，其特征在于：步骤(4)中所述测试数据库语音情感类别标签的计算方法为：采用下式计算：式中，P为步骤(3)学习到的投影矩阵，Xt表示测试数据库语音片段的特征向量集合，即待识别语音片段的特征向量集合，表示中间辅助变量，j*表示待识别语音片段的语音情感类别标签。 8.一种基于联合分布最小二乘回归的跨数据库语音情感识别装置，包括处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于：所述处理器执行所述程序时实现权利要求1-6中任意一项所述的方法。

专利专题