一种多模态情感识别方法及装置

引用

摘要：

本发明公开了一种多模态情感识别方法及装置，所述方法包括：将获取的原始音视频信号进行数据切分，得到多个待检测情感片段和每个待检测情感片段对应的多个设定长度的子片段，其中，每个子片段均包括多重模态；将每个具有多重模态的子片段带入训练好的多模态情感识别网络模型，获得每个子片段的情感类别；基于每个待检测情感片段中所有子片段的情感类别，分别对每个待检测情感片段进行情感识别，确定各待检测情感片段对应的情感类别；其中，所述多重模态包括：视频片段、音频片段和所属待检测情感片段中由音频片段识别得到的文本。本发明将多种模态进行融合大大提高了算法的识别准确率。

专利类型：发明专利

申请/专利号：CN202010251145.4

申请日期：2020-04-01

公开/公告号：CN111564164A

公开/公告日：2020-08-21

主分类号：G10L25/63(2013.01)

申请/专利权人:中国电力科学研究院有限公司

发明/设计人:潘明明;田世明;李德智;龚桃荣;陈宋宋;宫飞翔;石坤;董明宇

主申请人地址:100192 北京市海淀区清河小营东路15号

专利代理机构:北京安博达知识产权代理有限公司

代理人:徐国文

国别省市代码:北京;11

权利要求：

1.一种多模态情感识别方法，其特征在于，包括：将获取的原始音视频信号进行数据切分，得到多个待检测情感片段和每个待检测情感片段对应的多个设定长度的子片段，其中，每个子片段均包括多重模态；将每个具有多重模态的子片段带入训练好的多模态情感识别网络模型，获得每个子片段的情感类别；基于每个待检测情感片段中所有子片段的情感类别，分别对每个待检测情感片段进行情感识别，确定各待检测情感片段对应的情感类别；其中，所述多模态情感识别网络模型基于捕捉各模态之间的非线性关系，形成情感分类的联合判别特征表示后，再进行情感类别识别；所述多重模态包括：视频片段、音频片段和所属待检测情感片段中由音频片段识别得到的文本。 2.如权利要求1所述的多模态情感识别方法，其特征在于，所述将每个具有多重模态的子片段带入训练好的多模态情感识别网络模型，获得每个子片段的情感类别，包括：对子片段的文本进行分词和词嵌入处理，基于词嵌入后的文本获得语义情感特征；基于子片段中的视频片段和音频片段提取视频情感特征和音频情感特征；将所述音频情感特征、视频情感特征和语义情感特征分别拉伸为一维向量并拼接，将拼接得到的一维向量输入多模态情感识别网络模型中的深度置信网络得到融合情感特征；将所述融合情感特征输入到分类器，获得所述子片段的情感类别。 3.如权利要求2所述的多模态情感识别方法，其特征在于，所述基于子片段中的视频片段和音频片段提取视频情感特征和音频情感特征，包括：从子片段的视频片段中随机选取一帧图像进行人脸检测，裁剪出人脸区域的图像；从子片段的音频片段中提取梅尔倒谱；将裁剪出人脸区域的图像作为多模态情感识别网络模型中CNN的输入，并将全连接层的输出作为视频情感特征；将所述梅尔倒谱作为多模态情感识别网络模型中CRNN网络的输入，并将CRNN网络的隐藏层作为音频情感特征。 4.如权利要求2所述的多模态情感识别方法，其特征在于，所述对子片段的文本进行分词和词嵌入处理，基于词嵌入后的文本获得语义情感特征，包括：对子片段的文本进行分词和词嵌入处理，将词嵌入后的文本作为多模态情感识别网络模型中LSTM网络的输入，并将LSTM网络隐藏层的输出作为语义情感特征。 5.如权利要求1所述的多模态情感识别方法，其特征在于，所述基于每个待检测情感片段中所有子片段的情感类别，分别对每个待检测情感片段进行情感识别，确定各待检测情感片段对应的情感类别，包括：基于每个待检测情感片段中所有子片段的情感类别组成的情感类别列表进行投票，选取出现概率最大的情感类别作为每个待检测情感片段的情绪识别结果；基于训练好的支撑向量机分类模型对每个待检测情感片段的情绪识别结果进行时序分析，确定各待检测情感片段对应的情感类别。 6.如权利要求5所述的多模态情感识别方法，其特征在于，所述基于训练好的支撑向量机分类模型对每个待检测情感片段的情绪识别结果进行时序分析，确定各待检测情感片段对应的情感类别，包括：将待检测情感片段之前的多个待检测情感片段以及其属于各情感类别的概率、所述待检测情感片段属于各情感类别的概率和所述待检测情感片段的情绪识别结果的概率带入训练好的支撑向量机分类模型；基于所述支撑向量机分类模型的输出结果判断多模态情感识别算法识别出得情感类别是否合理，如果合理，则将当前情绪识别结果作为所述待检测情感片段的最终情感识别结果，如不合理，则从所述待检测情感片段属于的其它情感类别中选择概率最大的类别作为所述待检测情感片段对应的情感类别。 7.如权利要求1所述的多模态情感识别方法，其特征在于，所述将获取的原始音视频信号进行数据切分，得到多个待检测情感片段和每个待检测情感片段对应的多个设定长度的子片段，包括：将原始音视频信号基于设置的第一时间长度依次进行截取，生成多个待检测情感片段；将每个待检测情感片段基于设置的第二时间长度进行均等切分，获得各待检测情感片段对应的多个子片段。 8.如权利要求2所述的多模态情感识别方法，其特征在于，所述基于子片段中的视频片段和音频片段提取视频情感特征和音频情感特征，之前还包括：判断FPGA的设备利用率，当FPGA的设备利用率高于设定的阈值时，采用CPU执行；否则采用FPGA执行。 9.如权利要求2所述的多模态情感识别方法，其特征在于，所述对子片段的文本进行分词和词嵌入处理，基于词嵌入后的文本获得语义情感特征，基于CPU执行。 10.一种多模态情感识别装置，其特征在于，包括：控制器和计算器；所述控制器通过封装的接口与外部系统通信连接；所述控制器，用于将获取的原始音视频信号进行数据切分，得到多个待检测情感片段和每个待检测情感片段对应的多个设定长度的子片段，其中，每个子片段均包括多重模态；所述计算器，用于将每个具有多重模态的子片段带入训练好的多模态情感识别网络模型，获得每个子片段的情感类别；所述计算器，还用于基于每个待检测情感片段中所有子片段的情感类别，分别对每个待检测情感片段进行情感识别，确定各待检测情感片段对应的情感类别；其中，所述多模态情感识别网络模型基于捕捉各模态之间的非线性关系，形成情感分类的联合判别特征表示后，再进行情感类别识别；所述多重模态包括：视频片段、音频片段和所属待检测情感片段中由音频片段识别得到的文本。 11.如权利要求10所述的多模态情感识别装置，其特征在于，所述控制器包括：任务监听模块、数据交互模块和设备选择模块；所述任务监听模块，用于监听任务请求，当监听到外部系统传来的情绪识别请求时，发送启动信号给数据交互模块；所述数据交互模块，用于接收外部系统传入的原始音视频信号进行解码并将解码后的原始音频信号进行数据切分，得到多个待检测情感片段和每个待检测情感片段对应的多个子片段；所述设备选择模块，用于监测FPGA的设备利用率并进行判断，当FPGA的设备利用率高于设定的阈值时，采用CPU执行情感类别识别任务；否则采用FPGA执行情感类别识别任务。 12.如权利要求10所述的多模态情感识别装置，其特征在于，所述计算器包括：部署在CPU和FPGA上的视频特征提取模块、语音特征提取模块、特征融合分类模块和投票与时序分析模块；所述视频特征提取模块，用于从子片段的视频信号中随机选取一帧图像进行人脸检测，裁剪出人脸区域的图像，同时将裁剪出人脸区域的图像作为多模态情感识别网络模型中CNN的输入，并将全连接层的输出作为视频情感特征；所述语音特征提取模块，用于从子片段的音频片段中提取梅尔倒谱，同时将所述梅尔倒谱作为多模态情感识别网络模型中CRNN网络的输入，并将CRNN网络的隐藏层作为音频情感特征；所述特征融合分类模块，用于将所述音频情感特征、视频情感特征和语义情感特征分别拉伸为一维向量并拼接，将拼接得到的一维向量输入多模态情感识别网络模型中的深度置信网络得到融合情感特征；还用于将所述融合情感特征输入到分类器，获得所述子片段的情感类别；所述投票与时序分析模块，用于基于每个待检测情感片段中所有子片段的情感类别，分别对每个待检测情感片段进行情感识别，确定各待检测情感片段对应的情感类别。 13.如权利要求12所述的多模态情感识别装置，其特征在于，所述投票与时序分析模块，包括：投票单元，用于基于每个待检测情感片段中所有子片段的情感类别组成的情感类别列表进行投票，选取出现概率最大的情感类别作为每个待检测情感片段的情绪识别结果；时序分析单元，用于基于训练好的支撑向量机分类模型对每个待检测情感片段的情绪识别结果进行时序分析，确定各待检测情感片段对应的情感类别。 14.如权利要求12所述的多模态情感识别装置，其特征在于，所述计算器，还包括：部署在CPU上的语义特征提取模块；所述语义特征提取模块，用于对子片段的文本进行分词和词嵌入处理，将词嵌入后的文本作为多模态情感识别网络模型中LSTM网络的输入，并将LSTM网络隐藏层的输出作为语义情感特征。 15.如权利要求12或14任一项所述的多模态情感识别装置，其特征在于，所述CPU包括存储模块，用于存储解码后的语音和视频数据，多模态情感识别模型中的深度置信网络、LSTM网络、CRNN网络和CNN网络的模板，以及通过控制器训练生成的网络参数。

专利专题