语音情感识别方法、装置及存储介质

引用

摘要：

本发明提供一种语音情感识别方法、装置及存储介质。通过对第一对象与第二对象之间对话产生的语音数据进行预处理，得到三个语音片段集合，根据第一对象和第二对象在此语音数据中的会话顺序，确定出三个语音片段集合与第一对象、第二对象及其他类的映射关系，在此映射关系的基础上，基于预先确定的目标对象获取与目标对象对应的目标语音片段集合，然后根据目标语音片段集合和语音情感识别模型识别得到目标对象在语音对话中的情感类别，通过该方法，可以识别出语音数据中任一会话方在此对话中的情感类别，同时提升语音情感识别结果的准确性。

专利类型：发明专利

申请/专利号：CN202010284382.0

申请日期：2020-04-13

公开/公告号：CN111508530A

公开/公告日：2020-08-07

主分类号：G10L25/63(2013.01)

申请/专利权人:腾讯科技(深圳)有限公司

发明/设计人:张婧琦;段建波;邹耿鹏

主申请人地址:518057 广东省深圳市南山区高新区科技中一路腾讯大厦35层

专利代理机构:广州三环专利商标代理有限公司

代理人:熊永强%贾允

国别省市代码:广东;44

权利要求：

1.一种语音情感识别方法，其特征在于，包括：确定待识别的语音数据和目标对象，所述语音数据是基于第一对象与第二对象之间的语音对话产生的，所述目标对象选自所述第一对象或所述第二对象；获取所述第一对象和所述第二对象之间的会话顺序；对所述语音数据进行预处理，得到三个分别对应所述第一对象语音信息、所述第二对象语音信息和其他类语音信息的语音片段集合；根据所述会话顺序建立所述语音片段集合与所述第一对象、所述第二对象和所述其他类的映射关系；根据所述映射关系和所述目标对象，获取与所述目标对象对应的目标语音片段集合；根据所述目标语音片段集合和预设的语音情感识别模型，识别所述目标对象在所述语音对话中的情感类别。 2.根据权利要求1所述的方法，其特征在于，所述对所述语音数据进行预处理，得到三个分别对应所述第一对象语音信息、所述第二对象语音信息和其他类语音信息的语音片段集合，包括：将所述语音数据切割为三个以上的语音片段；对切割获得的所述语音片段进行聚类处理，得到三个分别对应所述第一对象语音信息、所述第二对象语音信息和其他类语音信息的语音片段集合。 3.根据权利要求2所述的方法，其特征在于，所述将所述语音数据切割为三个以上的语音片段，包括: 对所述语音数据进行分帧，得到包含至少三个语音帧的帧序列；对每个所述语音帧进行语音端点检测，获取各所述语音帧的语音端点信息；将语音端点信息为空的所述语音帧从所述帧序列中剔除，并以剔除的所述语音帧在所述帧序列中的位置作为分割点对所述帧序列进行切分，获得至少三个语音片段。 4.根据权利要求2所述的方法，其特征在于，所述对切割获得的所述语音片段进行聚类处理，得到三个分别对应所述第一对象语音信息、所述第二对象语音信息和其他类语音信息的语音片段集合，包括：将切割得到的每个所述语音片段作为一个独立的类簇进行迭代合并，每次迭代把两个最符合合并条件的类簇合并为一个新的类簇，直至合并得到的类簇数量为3时，得到三个语音片段集合，三个所述语音片段集合分别对应所述第一对象语音信息、所述第二对象语音信息和其他类语音信息。 5.根据权利要求1所述的方法，其特征在于，所述获取所述第一对象和所述第二对象之间的会话顺序，包括：获取对所述语音数据中首个发言对象的标记信息；根据所述标记信息确定所述第一对象和第二对象的会话顺序。 6.根据权利要求3所述的方法，其特征在于，所述根据所述会话顺序建立所述语音片段集合与所述第一对象、所述第二对象和所述其他类的映射关系，包括：按照所述帧序列从切割得到的语音片段中提取排序在前的三个语音片段；构建三个语音片段中第一个语音片段与所述其他类之间的第一对应关系；根据所述会话顺序确定三个语音片段中第二个语音片段与所述第一对象及所述第二对象之间的第二对应关系；根据所述会话顺序确定三个语音片段中第三个语音片段与所述第一对象及所述第二对象之间的第三对应关系；获取三个语音片段与三个所述语音片段集合之间的从属关系；基于所述第一对应关系、所述第二对应关系、所述第三对应关系以及所述从属关系，确定三个所述语音片段集合与所述第一对象、所述第二对象和所述其他类的映射关系。 7.根据权利要求1所述的方法，其特征在于，所述根据所述目标语音片段集合和预设的语音情感识别模型，识别所述目标对象在所述语音对话中的情感类别，包括：获取目标语音片段集合中各语音片段的音频特征；将所述目标语音片段集合中各语音片段的音频特征输入语音情感识别模型，输出得到所述目标语音片段集合中各语音片段属于各预设情感类别的第一概率；基于所述目标语音片段集合中各语音片段属于各预设情感类别的第一概率，计算所述目标语音片段集合属于各预设情感类别的第二概率；根据所述第二概率确定所述目标对象在所述语音对话中的情感类别。 8.一种语音情感识别装置，其特征在于，包括：确定模块，用于确定待识别的语音数据和目标对象，所述语音数据是基于第一对象与第二对象之间的语音对话产生的，所述目标对象选自所述第一对象或所述第二对象；会话顺序获取模块，用于获取所述第一对象和所述第二对象之间的会话顺序；预处理模块，用于对所述语音数据进行预处理，得到三个分别对应所述第一对象语音信息、所述第二对象语音信息和其他类语音信息的语音片段集合；映射关系建立模块，用于根据所述会话顺序建立所述语音片段集合与所述第一对象、所述第二对象和所述其他类的映射关系；目标语音片段集合获取模块，用于根据所述映射关系和所述目标对象，获取与所述目标对象对应的目标语音片段集合；情感类别识别模块，用于根据所述目标语音片段集合和预设的语音情感识别模型，识别所述目标对象在所述语音对话中的情感类别。 9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令和至少一段程序，所述至少一条指令或者至少一段程序由处理器加载并执行以实现如权利要求1-7任一所述的语音情感识别方法。 10.一种计算机存储介质，其特征在于，所述存储介质中存储有至少一条指令或者至少一段程序，所述至少一条指令或者至少一段程序由处理器加载并执行以实现如权利要求1-7任一所述的语音情感识别方法。

专利专题