情绪识别方法、装置、计算机设备及存储介质

引用

摘要：

本申请实施例属于人工智能领域，涉及一种情绪识别方法、装置、计算机设备及存储介质，其中方法包括：通过获取待识别文件，所述待识别文件为视频片段和/或音频片段；将所述待识别文件输入到预设的特征提取模型进行特征提取，获得所述待识别文件的特征；将所述特征输入到同时经情绪识别训练和身份识别训练的情绪身份识别模型中进行情绪预测，获取所述情绪身份识别模型输出的情绪预测结果；根据所述情绪预测结果，确定所述待识别文件的情绪类别。通过身份识别和情绪识别综合训练，学习不同对象不同情绪的特征，提高了情绪识别的准确率。

专利类型：发明专利

申请/专利号：CN202011504934.0

申请日期：2020-12-18

公开/公告号：CN112669876A

公开/公告日：2021-04-16

主分类号：G10L25/30(2013.01)

申请/专利权人:平安科技(深圳)有限公司

发明/设计人:张展望;周超勇;刘玉宇

主申请人地址:518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼

专利代理机构:深圳市世联合知识产权代理有限公司

代理人:汪琳琳

国别省市代码:广东;44

权利要求：

1.一种情绪识别方法，其特征在于，包括下述步骤：获取待识别文件，所述待识别文件为视频片段和/或音频片段；将所述待识别文件输入到预设的特征提取模型进行特征提取，获得所述待识别文件的特征；将所述特征输入到同时经情绪识别训练和身份识别训练的情绪身份识别模型中进行情绪预测，获取所述情绪身份识别模型输出的情绪预测结果；根据所述情绪预测结果，确定所述待识别文件的情绪类别。 2.根据权利要求1所述的情绪识别方法，其特征在于，当所述待识别文件为视频片段时，所述将所述待识别文件输入到预设的特征提取模型进行特征提取，获得所述待识别文件的特征的步骤具体包括：将所述视频片段输入到预先训练的图像特征提取模型，获得所述视频片段的图像特征；所述情绪身份识别模型包含预先训练的第一LSTM网络和情绪预测结果输出层，所述将所述特征输入到同时经情绪识别训练和身份识别训练的情绪身份识别模型中进行情绪预测，获取所述情绪身份识别模型输出的情绪预测结果的步骤具体包括：将所述图像特征输入到所述第一LSTM网络，获取所述视频特征的时序图像特征；将所述时序图像特征输入到所述情绪预测结果输出层，获取所述情绪预测结果输出层输出的情绪预测识别结果。 3.根据权利要求2所述的情绪识别方法，其特征在于，所述情绪身份识别模型还包括身份预测结果输出层，所述情绪身份识别模型的训练包括下述步骤：获取训练样本，所述训练样本为标注有情绪类别和身份的N个视频片段，N为大于0的正整数；将所述训练样本输入到所述图像特征提取网络，获得所述训练样本的N个图像特征；将所述N个图像特征输入到所述情绪身份识别模型中，获得所述情绪预测结果输出层输出的N个情绪预测结果和所述身份预测结果输出层输出的N个身份预测结果；通过第一损失函数比对所述N个情绪预测结果和所述N个身份预测结果与所述标注的情绪类别和身份识别是否一致，其中所述第一损失函数为： L1＝L1_vEmotion+L1_vFace 其中，L1_vEmotion为所述情绪预测结果的损失函数，L1_vEmotion采用arcfaceloss，L1_vFace为所述身份预测结果的损失函数，L1_vFace采用softmaxloss；调整所述情绪身份识别模型中各节点的参数，至所述第一损失函数达到最小值时结束，得到同时经情绪识别训练和身份识别训练的情绪身份识别模型。 4.根据权利要求1所述的情绪识别方法，其特征在于，当所述待识别文件为音频片段时，所述将所述待识别文件输入到预设的特征提取模型进行特征提取，获得所述待识别文件的特征的步骤具体包括：将所述音频片段输入到预设的音频特征提取模型，获得所述音频片段的音频特征；所述情绪身份识别模型包含预先训练的第一情绪身份特征提取网络和情绪预测结果输出层，所述将所述特征输入到同时经情绪识别训练和身份识别训练的情绪身份识别模型中进行情绪预测，获取所述情绪身份识别模型输出的情绪预测结果的步骤具体包括：将所述音频特征输入到所述第一情绪身份特征提取网络，获取所述音频特征的情绪身份特征；将所述情绪身份特征输入到所述情绪预测结果输出层，获取所述情绪预测结果输出层输出的情绪预测识别结果。 5.根据权利要求4所述的情绪识别方法，其特征在于，所述情绪身份识别模型还包括身份预测结果输出层，所述情绪身份识别模型的训练包括下述步骤：获取训练样本，所述训练样本为标注有情绪类别和身份的N个音频片段，N为大于0的正整数；将所述训练样本输入到所述音频特征提取模型，获得所述训练样本的N个音频特征；将所述N个音频特征输入到所述情绪身份识别模型中，获得所述情绪预测结果输出层输出的N个情绪预测结果和所述身份预测结果输出层输出的N个身份预测结果；通过第二损失函数比对所述N个情绪预测结果和所述N个身份预测结果与所述标注的情绪类别和身份是否一致，其中所述第二损失函数为： L2＝L1_aEmotion+L1_aFace 其中，L1_aEmotion为所述情绪预测结果的损失函数，L1_aEmotion采用arcfaceloss，L1_aFace为所述身份预测结果的损失函数，采用softmaxloss；调整所述情绪身份识别模型中各节点的参数，至所述第二损失函数达到最小值时结束，得到同时经情绪识别训练和身份识别训练的情绪身份识别模型。 6.根据权利要求1所述的情绪识别方法，其特征在于，当所述待识别文件为视频片段和音频片段时，所述视频片段和所述音频片段同步，所述将所述待识别文件输入到预先训练的特征提取模型，获得所述待识别文件的特征的步骤具体包括：将所述视频片段输入到预先训练的图像特征提取模型，获得所述视频片段的图像特征；将所述音频片段输入到预设的音频特征提取模型，获得所述音频片段的音频特征；所述情绪身份识别模型包含第二LSTM网络、第二情绪身份特征提取网络、第三LSTM网络和情绪预测结果输出层，将所述特征输入到同时经情绪识别训练和身份识别训练的情绪身份识别模型中进行情绪预测，获取所述情绪身份识别模型输出的情绪预测结果的步骤具体包括：将所述图像特征输入到所述第二LSTM网络，获取所述视频特征的时序图像特征；将所述音频特征输入到所述第二情绪身份特征提取网络，获取所述音频特征的情绪身份特征；将所述时序图像特征和所述情绪身份特征输入到预先训练的第三LSTM网络，获取待识别文件的音像特征；将所述音像特征输入到所述情绪预测结果输出层，获取所述情绪预测结果输出层输出的情绪预测识别结果。 7.根据权利要求6所述的情绪识别方法，其特征在于，所述情绪身份识别模型还包括身份预测结果输出层，所述情绪身份识别模型的训练包括下述步骤：获取训练样本，所述训练样本为标注有情绪类别和身份的N个文件，N为大于0的正整数，所述文件包含同步的视频片段和音频片段；将所述训练样本中的视频片段输入到预先训练的图像特征提取模型，获得所述训练样本的N个图像特征；将所述训练样本中的音频片段输入到预设的音频特征提取模型，获得所述训练样本的N个音频特征；将所述N个图像特征和所述N个音频特征输入到所述情绪身份识别模型中，得到所述情绪预测结果输出层输出的N个情绪预测结果和所述身份预测结果输出层输出的N个身份预测结果；通过第三损失函数比对所述N个情绪预测结果和所述N个身份预测结果与所述标注的情绪类别和身份识别是否一致，其中所述第三损失函数为： L3＝L2_vEmotion+L2_vFace+L2_aEmotion+L2_aFace+L_ids+λL_Emotion 其中，L2_vFace和L2_vEmotion为所述第二LSTM网络的损失函数,L2_aEmotion和L2_aFace为所述第二情绪身份特征提取网络的损失函数，L_ids为所述身份预测结果的损失函数，L_Emotion为所述情绪预测结果的损失函数，λ为大于1的可调系数；调整所述情绪身份识别模型中各节点的参数，至所述第三损失函数达到最小值时结束，得到同时经情绪识别训练和身份识别训练的情绪身份识别模型。 8.一种情绪识别装置，其特征在于，包括：获取模块，用于获取待识别文件，所述待识别文件为视频片段和/或音频片段；提取模块，用于将所述待识别文件输入到预设的特征提取模型进行特征提取，获得所述待识别文件的特征；处理模块，用于将所述特征输入到同时经情绪识别训练和身份识别训练的情绪身份识别模型中进行情绪预测，获取所述情绪身份识别模型输出的情绪预测结果；确定模块，用于根据所述情绪预测结果，确定所述待识别文件的情绪类别。 9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的情绪识别方法的步骤。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的情绪识别方法的步骤。

专利专题