基于语音的情绪识别方法、装置、设备及存储介质

引用

摘要：

本发明涉及人工智能技术领域，提供一种基于语音的情绪识别方法、装置、设备及存储介质，用于提高语音信息的情绪识别准确性。基于语音的情绪识别方法包括：对基于待处理语音信息的多个语音特征进行拼接处理得到融合特征；通过融合网络对融合特征进行瓶颈层特征提取和分类处理，得到情绪特征向量和情绪分类标签；获取情绪时序向量集，并计算情绪时序向量集中情绪时序向量之间的相似度，得到目标相似度集；根据预设阈值和目标相似度集，对情绪时序向量集进行分类，得到多个分类情绪向量集；根据情绪分类标签，对多个分类情绪向量集进行情绪匹配分类，得到目标情绪识别结果。此外，本发明还涉及区块链技术，待处理语音信息可存储于区块链中。

专利类型：发明专利

申请/专利号：CN202011298684.X

申请日期：2020-11-19

公开/公告号：CN112466336A

公开/公告日：2021-03-09

主分类号：G10L25/63(2013.01)

申请/专利权人:平安科技(深圳)有限公司

发明/设计人:张超;顾艳梅;马骏;王少军

主申请人地址:518033 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼

专利代理机构:北京市京大律师事务所

代理人:姚维

国别省市代码:广东;44

权利要求：

1.一种基于语音的情绪识别方法，其特征在于，所述基于语音的情绪识别方法包括：获取基于待处理语音信息的多个语音特征，并对所述多个语音特征进行拼接处理，得到融合特征，所述多个语音特征用于指示多个模态的语音特征；通过预置的融合网络，对所述融合特征进行瓶颈层特征提取和分类处理，得到情绪特征向量，以及与所述情绪特征向量对应的情绪分类标签；对所述情绪特征向量进行预设时段的特征向量提取，得到情绪时序向量集，并计算所述情绪时序向量集中情绪时序向量之间的相似度，得到目标相似度集；根据预设阈值和所述目标相似度集，对所述情绪时序向量集进行分类，得到多个分类情绪向量集，一个分类情绪向量集对应一个分类类型；根据所述情绪分类标签，对所述多个分类情绪向量集进行情绪匹配分类，得到目标情绪识别结果。 2.根据权利要求1所述的基于语音的情绪识别方法，其特征在于，所述根据预设阈值和所述目标相似度集，对所述情绪时序向量集进行分类，得到多个分类情绪向量集，包括：计算所述目标相似度集中每个目标相似度与预设阈值之间的差值，按照从大到小的顺序对所述差值进行排序，得到相似度序列；按照预设的分类值对所述相似度序列进行分类，得到多个分类相似度集；将所述情绪时序向量集中每个分类相似度集对应的情绪时序向量确定为分类情绪向量集，得到多个分类情绪向量集。 3.根据权利要求1所述的基于语音的情绪识别方法，其特征在于，所述根据所述情绪分类标签，对所述多个分类情绪向量集进行情绪匹配分类，得到目标情绪识别结果，包括：对每个分类情绪向量集中的情绪分类标签进行归类处理，得到多个归类情绪标签；统计每个归类情绪标签的数量，按照数量从大到小的顺序对所述多个归类情绪标签进行排序，得到排序情绪标签；将所述排序情绪标签中排序为第一的排序情绪标签，确定为每个分类情绪向量集的情绪识别结果，得到目标情绪识别结果。 4.根据权利要求1所述的基于语音的情绪识别方法，其特征在于，所述通过预置的融合网络，对所述融合特征进行瓶颈层特征提取和分类处理，得到情绪特征向量，以及与所述情绪特征向量对应的情绪分类标签，包括：通过预置的融合网络中的瓶颈层，对所述融合特征的特征量进行降维处理，得到情绪特征向量，所述融合网络包括瓶颈层和分类层；通过所述分类层，对所述情绪特征向量依次进行分类向量提取和分类函数计算，得到与所述情绪特征向量对应的情绪分类标签，所述分类向量提取中的分类向量包括多个维度分别对应的分类标签数量。 5.根据权利要求1所述的基于语音的情绪识别方法，其特征在于，所述获取基于待处理语音信息的多个语音特征，并对所述多个语音特征进行拼接处理，得到融合特征，包括：获取待处理语音信息，并通过预置的空洞卷积网络、卷积网络和长短时记忆网络，对所述待处理语音信息进行特征提取，得到时域特征、频域特征和语音情绪特征；分别将所述时域特征、所述频域特征和所述语音情绪特征进行矩阵向量转换，得到时域特征矩阵、频域特征矩阵和语音情绪特征矩阵；对所述时域特征矩阵、所述频域特征矩阵和所述语音情绪特征矩阵进行矩阵相加处理，得到融合特征。 6.根据权利要求1所述的基于语音的情绪识别方法，其特征在于，所述对所述情绪特征向量进行预设时段的特征向量提取，得到情绪时序向量集，并计算所述情绪时序向量集中情绪时序向量之间的相似度，得到目标相似度集，包括：按照预设时段，对所述情绪特征向量进行分段处理，得到情绪时序向量集，所述情绪时序向量集的数量包括一个或一个以上；从预置数据库中获取与所述融合特征对应的历史情绪向量集，并根据预置注意力机制，将所述情绪时序向量集和所述历史情绪向量集进行融合，得到注意力情绪向量集；计算所述注意力情绪向量集中每两个注意力情绪向量之间的相似度，得到目标相似度集。 7.根据权利要求1-6中任一项所述的基于语音的情绪识别方法，其特征在于，所述根据所述情绪分类标签，对所述多个分类情绪向量集进行情绪匹配分类，得到目标情绪识别结果之后，还包括：获取所述目标情绪识别结果的错误信息，根据所述错误信息，对所述多个语音特征和所述融合网络进行优化。 8.一种基于语音的情绪识别装置，其特征在于，所述基于语音的情绪识别装置包括：拼接模块，用于获取基于待处理语音信息的多个语音特征，并对所述多个语音特征进行拼接处理，得到融合特征，所述多个语音特征用于指示多个模态的语音特征；提取分类模块，用于通过预置的融合网络，对所述融合特征进行瓶颈层特征提取和分类处理，得到情绪特征向量，以及与所述情绪特征向量对应的情绪分类标签；提取计算模块，用于对所述情绪特征向量进行预设时段的特征向量提取，得到情绪时序向量集，并计算所述情绪时序向量集中情绪时序向量之间的相似度，得到目标相似度集；第一分类模块，用于根据预设阈值和所述目标相似度集，对所述情绪时序向量集进行分类，得到多个分类情绪向量集，一个分类情绪向量集对应一个分类类型；第二分类模块，用于根据所述情绪分类标签，对所述多个分类情绪向量集进行情绪匹配分类，得到目标情绪识别结果。 9.一种基于语音的情绪识别设备，其特征在于，所述基于语音的情绪识别设备包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于语音的情绪识别设备执行如权利要求1-7中任意一项所述的基于语音的情绪识别方法。 10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述基于语音的情绪识别方法。

专利专题