一种语音数据主题识别的方法及装置

引用

摘要：

本发明公开了一种语音数据主题识别的方法及装置，该方法包括获取待识别的语音数据的数据集，对数据集中的语音数据进行识别，得到各语音数据对应的语音文本，将数据集中的语音数据以及语音数据对应的语音文本输入到语音主题模型中进行训练，确定出语音数据对应的语音文本的主题分布和每个词的主题。通过对语音数据及其对应的语音文本同时进行训练，得到语音数据对应的语音文本的主题分布和每个词的主题，相比现有技术中只对使用语音文本进行主题模型训练的方式，由于在语音主题模型的训练过程中增加了语音数据，有效的利用了语音数据的音频副语言，能够提高语音主题模型的识别准确率。

专利类型：发明专利

申请/专利号：CN202110125704.1

申请日期：2021-01-29

公开/公告号：CN112863518A

公开/公告日：2021-05-28

主分类号：G10L15/26(2006.01)

申请/专利权人:深圳前海微众银行股份有限公司

发明/设计人:宋元峰

主申请人地址:518027 广东省深圳市前海深港合作区前湾一路1号A栋201室

专利代理机构:北京同达信恒知识产权代理有限公司

代理人:宋正伟

国别省市代码:广东;44

权利要求：

1.一种语音数据主题识别的方法，其特征在于，包括：获取待识别的语音数据的数据集；对所述数据集中的语音数据进行识别，得到各语音数据对应的语音文本；将所述数据集中的语音数据以及所述语音数据对应的语音文本输入到语音主题模型中进行训练，确定出所述语音数据对应的语音文本的主题分布和每个词的主题。 2.如权利要求1所述的方法，其特征在于，所述将所述数据集中的语音数据以及所述语音数据对应的语音文本输入到语音主题模型中进行训练，确定出所述语音数据对应的语音文本的主题分布和每个词的主题，包括：确定出所述数据集中所述语音数据对应的语音文本的初始主题分布和所述语音数据的音频信息；针对所述语音数据对应的语音文本中的每一词，从所述语音数据对应的语音文本的初始主题分布中确定出每个词的初始主题；依据所述语音数据对应的语音文本的初始主题分布、所述语音数据的音频信息、以及所述每个词的初始主题，对所述语音主题模型中的参数进行训练，直到所述语音主题模型收敛，确定出所述语音数据对应的语音文本的主题分布和每个词的主题。 3.如权利要求2所述的方法，其特征在于，所述确定出所述数据集中所述语音数据对应的语音文本的初始主题分布，包括：依据所述语音主题模型的预设的超参数使用先验知识对所述数据集中语音数据对应的语音文本进行采样，得到所述语音数据对应的语音文本的初始主题分布。 4.如权利要求2所述的方法，其特征在于，所述确定出所述语音数据的音频信息，包括：将所述语音数据进行向量化处理，得到所述语音数据的语音特征矩阵；并将所述语音数据的语音特征矩阵进行加权求和，得到所述语音数据的音频信息。 5.如权利要求4所述的方法，其特征在于，所述将所述语音数据进行向量化处理，包括：通过声学特征提取将所述语音数据的语音特征数据，得到所述语音数据的语音特征矩阵。 6.如权利要求2所述的方法，其特征在于，所述依据所述语音数据对应的语音文本的初始主题分布、所述语音数据的音频信息、以及所述每个词的初始主题，对所述语音主题模型中的参数进行训练，直到所述语音主题模型收敛，确定出所述语音数据对应的语音文本的主题分布和每个词的主题，包括：根据所述语音数据对应的语音文本中第i-1个词的隐状态、第i个词的初始主题及所述语音数据的音频信息，确定所述第i个词的生成词；其中，所述第i-1个词为所述语音文本中所述第i个词的前一词；i为正整数；根据所述语音数据对应的语音文本的初始主题分布、所述语音数据对应的语音文本中每个词的初始主题、所述语音数据对应的语音文本的每个词以及每个词对应的生成词，对所述语音主题模型中的参数进行更新并进行下一轮训练，直到所述语音主题模型收敛；将所述语音主题模型收敛时输出的主题分布和每个词的主题，确定为所述语音数据对应的语音文本的主题分布和所述语音数据对应的语音文本中每个词的主题。 7.如权利要求6所述的方法，其特征在于，所述根据所述语音数据对应的语音文本中第i-1个词的隐状态、第i个词的初始主题及所述语音数据的音频信息，确定所述第i个词的生成词，包括：根据所述语音数据对应的语音文本中第i-1个词的隐状态、第i个词的初始主题及所述语音数据的音频信息，确定第i个词的隐状态；根据所述第i-1个词的生成词和所述第i个词的隐状态，确定所述第i个词的生成词。 8.如权利要求6所述的方法，其特征在于，所述根据所述语音数据对应的语音文本的初始主题分布、所述语音数据对应的语音文本中每个词的初始主题、所述语音数据对应的语音文本的每个词以及每个词对应的生成词，对所述语音主题模型中的参数进行更新，包括：确定所述语音数据对应的语音文本中的每个词与所述每个词对应的生成词之间的误差，对所述误差进行求导，得到所述语音主题模型的第一部分参数的梯度；使用参数估计方法对所述语音数据对应的语音文本的初始主题分布和所述每个词的初始主题进行参数估计，得到所述语音主题模型中的第二部分参数的梯度；依据所述语音主题模型的第一部分参数的梯度和第二部分参数的梯度，对所述语音主题模型中的参数进行更新。 9.一种语音数据主题识别的装置，其特征在于，包括：获取单元，用于获取待识别的语音数据的数据集；处理单元，用于对所述数据集中的语音数据进行识别，得到各语音数据对应的语音文本；将所述数据集中的语音数据以及所述语音数据对应的语音文本输入到语音主题模型中进行训练，确定出所述语音数据对应的语音文本的主题分布和每个词的主题。 10.一种计算设备，其特征在于，包括：存储器，用于存储程序指令；处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行权利要求1至8任一项所述的方法。 11.一种计算机可读非易失性存储介质，其特征在于，包括计算机可读指令，当计算机读取并执行所述计算机可读指令时，使得计算机执行如权利要求1至8任一项所述的方法。 12.一种计算机程序产品，其特征在于，包括计算机程序指令，当计算机读取并执行所述计算机程序指令时，使得计算机执行如权利要求1至8任一项所述的方法。

专利专题