基于多尺度差异对抗的跨数据库语音情感识别方法及装置

引用

摘要：

本发明公开了一种基于多尺度差异对抗的跨数据库语音情感识别方法，方法包括：（1）获取多个语音情感数据库；（2）提取每一语音信号的全局IS10特征，提取全局特征；（3）将语音信号分成前后重叠50%的五段短片段并分别提取其IS10特征；（4）输入双向长短时间记忆模型，再输入注意力机制模型，输出作为局部特征；（5）将全局IS10特征和局部特征并联，提取联合特征；（6）建立神经网络，包括对应于上述三种尺度的三个领域判别器，和情感分类器；（7）训练神经网络，网络总损失为情感分类器损失减去三个领域判别器损失；（8）获取待识别语音信号的三种尺度特征，输入训练好的神经网络，得到预测的情感类别。本发明识别结果更准确。

专利类型：发明专利

申请/专利号：CN202011376020.0

申请日期：2020-11-30

公开/公告号：CN112489689A

公开/公告日：2021-03-12

主分类号：G10L25/63(2013.01)

申请/专利权人:东南大学

发明/设计人:郑文明;郑婉璐;宗源

主申请人地址:210096 江苏省南京市玄武区四牌楼2号

专利代理机构:南京众联专利代理有限公司

代理人:李雪萍

国别省市代码:江苏;32

权利要求：

1.一种基于多尺度差异对抗的跨数据库语音情感识别方法，其特征在于，该方法包括： (1)获取存储有若干语音信号和对应情感类别标签的语音情感数据库，并划分为源域数据库和目标域数据库； (2)对于源域数据库和目标域数据库中的每个语音信号，提取IS10 low-level特征，然后利用卷积神经网络做为全局特征提取器提取深度特征，作为全局特征，特征提取器包括三层卷积层； (3)对于源域数据库和目标域数据库的每个语音信号，将其按照时间顺序分成前后重叠50％的若干短片段，并提取每个短片段的IS10特征； (4)将每个语音信号的所有短片段的IS10特征输入双向长短时间记忆模型，随后再输入进注意力机制模型，输出作为对应语音信号的局部特征； (5)对于源域数据库和目标域数据库中的每个语音信号，将全局IS10特征和局部特征并联，输入另一个卷积神经网络做为联合特征提取器提取深度特征，作为联合特征，特征提取器包括三层卷积层； (6)建立神经网络，所述神经网络包括对应于上述三种尺度的三个领域判别器，和情感分类器，所述领域判别器包括两层全连接层，输出为预测的语音信号所属领域类别，所述情感分类器包括两层全连接层，输出为预测的语音信号的情感类别； (7)对所述神经网络进行训练，训练时，将源域数据库和目标域数据库中每一语音信号的局部特征，全局特征和联合特征分别混合起来作为三个样本，输入对应尺度的领域判别器，将源域数据库中每一语音信号的联合特征作为一个样本，输入情感分类器，网络总损失为情感分类器损失减去三个领域判别器损失，通过反向传播算法更新网络参数，完成网络训练； (8)获取待识别语音信号的三种尺度特征，输入训练好的神经网络，得到预测的情感类别。 2.根据权利要求1所述的基于多尺度差异对抗的跨数据库语音情感识别方法，其特征在于：步骤(1)中，划分源域数据库和目标域数据库的方法为：将一个语音情感数据库语音信号和对应情感类别标签作为目标域数据库，另一个语音情感数据库的语音信号和对应情感类别标签作为源域数据库；两种数据库可以是不同语言的。 3.根据权利要求1所述的基于多尺度差异对抗的跨数据库语音情感识别方法，其特征在于：步骤(2)中所述全局特征提取器为： Gg＝Fg(Xg) 式中，Fg表示卷积神经网络，包含三层卷积层，Xg表示全局语音IS10特征，Gg表示得到的全局特征。 4.根据权利要求1所述的基于多尺度差异对抗的跨数据库语音情感识别方法，其特征在于：步骤(4)中所述双向长短时间记忆模型为：式中L()为双向长短时间记忆模型，Hl表示获得的隐藏层状态；表示局部IS10特征；步骤(4)中所述注意力机制模型为： f(Hl)＝WTHl 式中，f()表示线性计分函数，W表示可学习参数，Hl表示双向长短时间记忆模型的输出，αi表示注意力权重，表示Hl第i、j个元素，表示注意力机制模型的输出，即局部特征。 5.根据权利要求1所述的基于多尺度差异对抗的跨数据库语音情感识别方法，其特征在于：步骤(5)中所述联合特征提取器为：式中，Fh表示卷积神经网络，包含三层卷积层，Gh表示得到的联合特征。 6.根据权利要求1所述的基于多尺度差异对抗的跨数据库语音情感识别方法，其特征在于：步骤(7)中所述网络总损失为：式中，表示网络总损失，λ为正则化乘数，其中：形如表示领域判别器的交叉熵损失函数，分别表示局部尺度、全局尺度、联合尺度上的领域判别器的交叉熵损失函数，表示情感分类器交叉熵损失函数，di表示源域和目标域数据库中的语音信号的领域类别标签，分别是0和1；表示源域数据库中语音信号的情感类别标签，表示源域、目标域数据库中语音信号的全局特征，表示源域、目标域数据库中语音信号的局部特征，表示源域、目标域数据库中语音信号的联合特征；Fg、Fl、Fh表示三种尺度上的特征提取器；Dg、Dl、Dh表示三种尺度上的领域判别器；网络训练目的是最小化网络总损失函数。 7.一种基于多尺度差异对抗的跨数据库语音情感识别装置，其特征在于：包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器用于执行所述计算机程序时实现权利要求1-6中任意一项所述的方法。

专利专题