一种语音分析方法、系统、设备及存储介质

引用

摘要：

本申请提供了一种语音分析方法、系统、设备及存储介质，涉及数据处理技术领域。旨在融合语音中语音和文本的特点，综合预测话语语音所表达的情感。所述语音分析系统包括：语音识别模型、预先训练的中间层特征提取模型以及预先训练的情感分类模型。所述方法包括：通过所述语音识别模型对输入的语音进行识别，得到所述语音对应的文本信息；将所述文本信息输入所述中间层特征提取模型，得到融合所述文本信息和所述语音对应的音素概率向量的中间层特征；将所述中间层特征输入所述情感分类模型，得到所述语音的情感类型。

专利类型：发明专利

申请/专利号：CN202010203792.8

申请日期：2020-03-20

公开/公告号：CN111524534A

公开/公告日：2020-08-11

主分类号：G10L25/63(2013.01)

申请/专利权人:北京捷通华声科技股份有限公司

发明/设计人:王愈;李健;武卫东

主申请人地址:100193 北京市海淀区东北旺西路8号中关村软件园2号楼A座一层2101

专利代理机构:北京润泽恒知识产权代理有限公司

代理人:莎日娜

国别省市代码:北京;11

权利要求：

1.一种语音分析方法，其特征在于，应用于语音分析系统，所述语音分析系统包括：语音识别模型、预先训练的中间层特征提取模型以及预先训练的情感分类模型，所述方法包括：通过所述语音识别模型对输入的语音进行识别，得到所述语音对应的文本信息；将所述文本信息输入所述中间层特征提取模型，得到融合所述文本信息和所述语音对应的音素概率向量的中间层特征；将所述中间层特征输入所述情感分类模型，得到所述语音的情感类型。 2.根据权利要求1所述的方法，其特征在于，所述中间层特征提取模型是通过以下步骤训练得到的：将多个语音样本输入所述语音识别模型，得到对应的多个文本样本，并提取所述语音识别模型中的声学模型输出的多个音素概率向量样本，其中，对应同一语音样本的文本样本和音素概率向量样本组成一个第一样本对；利用所述多个语音各自对应的第一样本对，对第一预设模型进行训练；将经过多次训练后的第一预设模型确定为所述中间层特征提取模型。 3.根据权利要求2所述的方法，其特征在于，所述中间层特征提取模型包括：编码层、中间层以及解码层；利用所述多个语音各自对应的第一样本对，对第一预设模型进行训练，包括：将所述任一语音对应的第一样本对中的文本样本输入所述编码层；从所述编码层的预设词表中提取所述文本样本中每个字对应的文字向量，并输入所述中间层；对所述文本样本中每个字进行音素预测，得到对应的音素向量，并对所述文本样本中每个字对应的文字向量和音素向量进行信息融合，得到中间层特征；将所述中间层特征输入所述解码层，输出预测得到的所述文本样本的第一个字的第一预测音素概率向量；根据所述第一样本对中的音素概率向量样本，对所述第一预测音素概率向量进行修正，并将修正后的第一预测音素概率向量返回所述解码层；根据所述中间层特征和所述修正后的第一预测音素概率向量，输出预测得到的所述文本样本的第二个字的第二预测音素概率向量；重复上述步骤，直至所述解码层输出所述文本样本的最后一个字的预测音素概率向量。 4.根据权利要求3所述方法，其特征在于，所述中间层特征提取模型还包括：注意力机制层；对所述文本样本中每个字进行音素预测，得到对应的音素向量，包括：按照所述注意力机制层预设的权重，对所述文本样本中每个字进行音素预测，得到对应的音素向量；在根据所述第一样本对中的音素概率向量样本，对所述第一预测音素概率向量进行修正之后，所述方法还包括：根据修正后的所述第一预测音素概率向量，对所述注意力机制层预设的权重进行调整，以根据调整后的权重，利用所述多个语音中下一语音对应的第一样本对，对所述第一预设模型继续进行训练。 5.根据权利要求1所述的方法，所述情感分类模型是通过以下步骤训练得到的：获得多个语音样本，每个语音样本对应一个预先标记的情感类型标签；将多个语音样本输入所述中间层特征提取模型，得到所述多个语音样本各自对应的中间层特征样本，其中，对应同一语音样本的情感类型标签和中间层特征样本组成一个第二样本对；利用所述多个语音各自对应的第二样本对，对第二预设模型进行训练；将经过多次训练后的第二预设模型确定为所述情感分类模型。 6.一种语音分析系统，其特征在于，所述语音分析系统包括：语音识别模型、预先训练的中间层特征提取模型以及预先训练的情感分类模型；所述语音识别模型连接所述中间层特征提取模型，用于通过所述语音识别模型对输入的语音进行识别，得到所述语音对应的文本信息；所述中间层特征提取模型连接所述语音识别模型和所述情感分类模型，用于根据所述语音识别模型输入的所述文本信息，得到融合所述文本信息和所述语音对应的音素概率向量的中间层特征；所述情感分类模型用于根据所述中间层特征提取模型输入的所述中间层特征，得到所述语音的情感类型。 7.根据权利要求6所述的语音分析系统，其特征在于，所述语音分析系统还包括：第一样本获取模块，用于将多个语音样本输入所述语音识别模型，得到对应的多个文本样本，并提取所述语音识别模型中的声学模型输出的多个音素概率向量样本，其中，对应同一语音样本的文本样本和音素概率向量样本组成一个第一样本对；第一训练模块，用于利用所述多个语音各自对应的第一样本对，对第一预设模型进行训练；确定中间层特征提取模型模块，将经过多次训练后的第一预设模型确定为所述中间层特征提取模型。 8.根据权利要求7所述的语音分析系统，其特征在于，所述第一训练模块包括：样本输入子模块，用于将所述任一语音对应的第一样本对中的文本样本输入所述编码层；提取子模块，用于从所述编码层的预设词表中提取所述文本样本中每个字对应的文字向量，并输入所述中间层；信息融合子模块，用于对所述文本样本中每个字进行音素预测，得到对应的音素向量，并对所述文本样本中每个字对应的文字向量和音素向量进行信息融合，得到中间层特征；第一预测子模块，用于将所述中间层特征输入所述解码层，输出预测得到的所述文本样本的第一个字的第一预测音素概率向量；修正子模块，用于根据所述第一样本对中的音素概率向量样本，对所述第一预测音素概率向量进行修正，并将修正后的第一预测音素概率向量返回所述解码层；第二预测子模块，根据所述中间层特征和所述修正后的第一预测音素概率向量，输出预测得到的所述文本样本的第二个字的第二预测音素概率向量；循环训练子模块，用于重复上述步骤，直至所述解码层输出所述文本样本的最后一个字的预测音素概率向量。 9.一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5任一所述的方法中的步骤。 10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行时实现如权利要求1-5任一所述的方法的步骤。

专利专题