语音情绪识别方法、装置、电子设备及存储介质

引用

摘要：

本发明涉及人工智能技术，揭露了一种语音情绪识别方法，包括：接收语音数据，分割出所述语音数据的语音片段，并在所述语音片段中标记语音分割点；根据所述语音分割点，提取出所述语音片段的特征声纹，生成特征声纹集；对所述特征声纹集中相同的特征声纹进行融合，得到融合声纹集；识别出所述融合声纹集中融合声纹对应的用户信息，并将所述用户信息标记至对应的融合声纹中；利用预先训练完成的语音情绪检测模型对标记后的所述融合声纹集进行语音情绪检测，得到语音情绪检测结果。本发明还涉及区块链技术，所述语音片段可部署于区块链节点中。本发明提升了语音情绪识别的识别能力。

专利类型：发明专利

申请/专利号：CN202010445602.3

申请日期：2020-05-22

公开/公告号：CN111681681A

公开/公告日：2020-09-18

主分类号：G10L25/63(2013.01)

申请/专利权人:深圳壹账通智能科技有限公司

发明/设计人:王德勋;徐国强

主申请人地址:518000 广东省深圳市前海深港合作区前湾一路1号A栋201室

专利代理机构:深圳市沃德知识产权代理事务所(普通合伙)

代理人:高杰%于志光

国别省市代码:广东;44

权利要求：

1.一种语音情绪识别方法，其特征在于，所述方法包括：接收语音数据，分割出所述语音数据的语音片段，并在所述语音片段中标记语音分割点；根据所述语音分割点，提取出所述语音片段的特征声纹，生成特征声纹集；对所述特征声纹集中相同的特征声纹进行融合，得到融合声纹集；识别出所述融合声纹集中融合声纹对应的用户信息，并将所述用户信息标记至对应的融合声纹中；利用预先训练完成的语音情绪检测模型对标记后的所述融合声纹集进行语音情绪检测，得到语音情绪检测结果。 2.如权利要求1所述的语音情绪识别方法，其特征在于，所述语音片段存储于区块链中，及所述分割出所述语音数据的语音片段包括：获取语音数据的语音信号，对所述语音信号进行分帧处理，得到所述语音信号的语音序列，计算所述语音序列的语音频率，根据所述语音频率，截取在预设范围内的对应语音信号作为所述语音片段。 3.如权利要求2所述的语音情绪识别方法，其特征在于，所述计算所述语音序列的语音频率，包括：利用下述方法计算所述语音序列的语音频率：其中，B(f)表示语音频率，f表示语音序列的预期语音频率。 4.如权利要求1所述的语音情绪识别方法，其特征在于，所述根据所述语音分割点，提取出所述语音片段的特征声纹，生成特征声纹集，包括：根据所述语音分割点，获取对应语音片段的语音频率，计算所述语音频率的维度参数，根据所述维度参数生成所述标准语音数据的声纹特征，根据所述声纹特征得到所述特征声纹集。 5.如权利要求4所述的语音情绪识别方法，其特征在于，所述计算所述语音频率的维度参数包括：利用下述方法计算所述语音频率的维度参数：其中，d(n)表示语音频率的维度参数，i表示语音频率的帧率，n表示语音频率的振幅，B(f)表示语音频率，k表示当前语音帧与前后语音帧的线性组合。 6.如权利要求1所述的语音情绪识别方法，其特征在于，所述识别出所述融合声纹集中融合声纹对应的用户信息包括：利用下述方法识别出所述融合声纹集中融合声纹对应的用户信息：其中，p(X,Y,Z)表示融合声纹集中融合声纹对应的用户信息、X表示融合声纹集，Y表示用户信息，Z表示用户信息的变化，T表示用户的数量，xt表示第t个用户的融合声纹，yt表示第t个用户信息，xt-1表示第t-1个用户的融合声纹，yt-1表示第t-1个用户信息。 7.如权利要求1至6中任意一项所述的语音情绪识别方法，其特征在于，所述语音情绪检测模型包括输入层、卷积层、池化层、全连接层以及输出层；及所述语音情绪检测模型的训练过程包括：通过所述输入层接收所述预先收集的语音声纹及对应的标签；通过所述卷积层对所述语音声纹进行卷积操作，得到所述语音声纹的特征向量；利用所述池化层对所述特征向量进行池化操作，通过所述激活层的激活函数对池化后的所述特征向量进行计算，得到训练值；利用全连接层的损失函数计算所述训练值和所述标签的损失函数值，若所述损失函数值大于预设的阈值时，对所述语音情绪检测模型的参数进行调整，直至所述损失函数值不大于所述预设的阈值时，得到所述预先训练完成的语音情绪检测模型。 8.一种语音情绪识别装置，其特征在于，所述装置包括：分割模块，用于接收语音数据，分割出所述语音数据的语音片段，并在所述语音片段中标记语音分割点；提取模块，用于根据所述语音分割点，提取出所述语音片段的特征声纹，生成特征声纹集；融合模块，用于对所述特征声纹集中相同的特征声纹进行融合，得到融合声纹集；识别模块，用于识别出所述融合声纹集中融合声纹对应的用户信息，并将所述用户信息标记至对应的融合声纹中；检测模块，用于利用预先训练完成的语音情绪检测模型对标记后的所述融合声纹集进行语音情绪检测，得到语音情绪检测结果。 9.一种电子设备，其特征在于，所述电子设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的语音情绪识别方法。 10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的语音情绪识别方法。

专利专题