语音识别模型训练方法、语音识别方法及装置

引用

摘要：

本发明实施例公开了一种语音识别模型训练方法、语音识别方法及装置，包括：获取无标注文本的第一语音序列和有标注文本的第二语音序列；将第一语音序列输入编码网络中，得到第一语音序列中语音单元的第一编码特征和指定语音单元的内容特征；根据内容特征预测指定语音单元之后的语音单元的第二编码特征；根据指定语音单元之后的语音单元的第一编码特征和第二编码特征计算对比编码损失以对编码网络进行训练；在训练好编码网络后将第二语音序列输入编码网络以对编码网络和解码网络进行训练。通过第一编码特征和第二编码特征计算对比编码损失来训练编码网络，可以使用无标注数据训练编码网络，减少了有标注的数据的数量，降低了获取数据的成本。

专利类型：发明专利

申请/专利号：CN202010961964.8

申请日期：2020-09-14

公开/公告号：CN112086087A

公开/公告日：2020-12-15

主分类号：G10L15/02(2006.01)

申请/专利权人:广州市百果园信息技术有限公司

发明/设计人:唐浩雨

主申请人地址:511402 广东省广州市番禺区市桥街兴泰路274号C栋西塔5-13层

专利代理机构:北京品源专利代理有限公司

代理人:孟金喆

国别省市代码:广东;44

权利要求：

1.一种语音识别模型训练方法，其特征在于，包括：获取训练数据集，所述训练数据集包括无标注文本的第一语音序列和有标注文本的第二语音序列；将所述第一语音序列输入初始化后的编码网络中，得到所述第一语音序列中语音单元的第一编码特征和指定语音单元的内容特征；根据所述内容特征预测所述指定语音单元之后的语音单元的第二编码特征；根据所述指定语音单元之后的语音单元的第一编码特征和所述第二编码特征计算对比编码损失，以对所述编码网络进行训练；在训练好所述编码网络后，将所述第二语音序列输入所述编码网络以对所述编码网络和初始化的解码网络进行训练，训练好的编码网络和解码网络作为语音识别模型。 2.根据权利要求1所述的方法，其特征在于，所述编码网络包括一次编码网络和二次编码网络，所述将所述第一语音序列输入初始化后的编码网络中，得到所述第一语音序列中语音单元的第一编码特征和指定语音单元的内容特征，包括：将所述第一语音序列输入初始化后的编码网络的一次编码网络中，得到所述第一语音序列中每个语音单元的第一编码特征；针对每个语音单元，将所述语音单元的第一编码特征和所述语音单元的前一个语音单元的状态量输入所述编码网络的二次编码网络中，得到指定语音单元的内容特征。 3.根据权利要求1所述的方法，其特征在于，所述根据所述内容特征预测所述指定语音单元之后的语音单元的第二编码特征，包括：将所述内容特征和预设线性矩阵相乘，得到所述指定语音单元之后的语音单元的第二编码特征。 4.根据权利要求1-3任一项所述的方法，其特征在于，所述编码网络包括一次编码网络和二次编码网络，所述根据所述指定语音单元之后的语音单元的第一编码特征和所述第二编码特征计算对比编码损失，以对所述编码网络进行训练，包括：针对所述指定语音单元之后的每个第一语音单元，利用所述第一语音单元的第一编码特征、所述第二编码特征以及所述第一语音单元以外的多个第二语音单元的第一编码特征计算所述第一语音单元的对比编码损失率；计算多个所述第一语音单元的对比编码损失率的均值得到损失率；判断所述损失率是否小于预设阈值；若是，停止对所述编码网络进行训练；若否，根据所述损失率调整所述编码网络的网络参数，返回将所述第一语音序列输入所述编码网络的一次编码网络中，得到所述第一语音序列中每个语音单元的第一编码特征的步骤。 5.根据权利要求4所述的方法，其特征在于，所述针对所述指定语音单元之后的每个第一语音单元，利用所述第一语音单元的第一编码特征、所述第二编码特征以及所述第一语音单元以外的多个第二语音单元的第一编码特征计算所述第一语音单元的对比编码损失率，包括：针对每个第一语音单元，采用所述第一语音单元的第一编码特征和第二编码特征构成正样本对例；采用所述第一语音单元的第二编码特征和所述第一语音单元以外的多个第二语音单元的第一编码特征构成多个负样本对例；计算所述正样本对例中第一编码特征和第二编码特征的相似度得到第一相似度；计算多个所述负样本对例中第一编码特征和第二编码特征的相似度得到第二相似度；根据所述第一相似度和多个第二相似度计算所述第一语音单元的对比编码损失率。 6.根据权利要求5所述的方法，其特征在于，所述根据所述第一相似度和多个第二相似度计算所述第一语音单元的对比编码损失率，包括：通过以下公式计算所述第一语音单元的对比编码损失率：其中，LN为对比编码损失率，第一语音序列X＝”x1，x2，......xN”；t为指定语音单元的序号，t+k为指定语音单元之后的语音单元的序号，表示一次编码网络对第一语音单元xt+k编码后得到第一编码特征ht+k和通过指定语音单元的内容特征ct获取第一语音单元xt+k的第二编码特征的相似度，Wk为线性矩阵； xj为第一语音序列X中除了第一语音单元xt+k以外的第二语音单元，表示一次编码网络对第二语音单元xj编码后得到第一编码特征和通过指定语音单元的内容特征ct获取第一语音单元xt+k的第二编码特征的相似度。 7.根据权利要求4所述的方法，其特征在于，所述根据所述损失率调整所述编码网络的网络参数，包括：根据所述损失率调整所述一次编码网络和二次编码网络的网络参数以及所述预设线性矩阵。 8.根据权利要求1-3任一项所述的方法，其特征在于，所述编码网络包括一次编码网络，所述在训练好所述编码网络后，将所述第二语音序列输入所述编码网络以对所述编码网络和初始化的解码网络进行训练，训练好的编码网络和解码网络作为语音识别模型，包括：采用所述编码网络的一次编码网络和初始化的解码网络构建语音识别模型；将所述第二语音序列输入所述语音识别模型中，以对所述一次编码网络和所述解码网络进行训练得到训练好的语音识别模型。 9.根据权利要求8所述的方法，其特征在于，所述采用所述编码网络的一次编码网络和初始化的解码网络构建语音识别模型，包括：将所述一次编码网络的输出层和所述初始化后的解码网络的输入层连接得到语音识别模型。 10.根据权利要求9所述的方法，其特征在于，所述将所述第二语音序列输入所述语音识别模型中，以对所述一次编码网络和所述解码网络进行训练得到训练好的语音识别模型，包括：将所述第二语音序列输入所述一次编码网络中以在所述解码网络输出预测文本；采用所述预测文本和所述第二语音序列的标注文本计算损失率；判断所述损失率是否小于预设阈值；若是，停止对所述一次编码网络和所述解码网络进行训练；若否，根据所述损失率调整所述一次编码网络和解码网络的网络参数，返回将所述第二语音序列输入所述一次编码网络中以在所述解码网络输出预测文本的步骤。 11.一种语音识别方法，其特征在于，包括：获取待识别语音数据；将所述待识别语音数据输入预先训练好的语音识别模型中得到识别文本；其中，所述语音识别模型通过权利要求1-10任一项所述的语音识别模型训练方法所训练。 12.一种语音识别模型训练装置，其特征在于，包括：训练数据集获取模块，用于获取训练数据集，所述训练数据集包括无标注文本的第一语音序列和有标注文本的第二语音序列；编码网络编码模块，用于将所述第一语音序列输入初始化后的编码网络中，得到所述第一语音序列中语音单元的第一编码特征和指定语音单元的内容特征；编码特征预测模块，用于根据所述内容特征预测所述指定语音单元之后的语音单元的第二编码特征；编码网络训练模块，用于根据所述指定语音单元之后的语音单元的第一编码特征和所述第二编码特征计算对比编码损失，以对所述编码网络进行训练；编码网络和解码网络训练模块，用于在训练好所述编码网络后，将所述第二语音序列输入所述编码网络以对所述编码网络和初始化的解码网络进行训练，训练好的编码网络和解码网络作为语音识别模型。 13.一种语音识别装置，其特征在于，包括：待识别语音数据获取模块，用于获取待识别语音数据；语音识别模块，用于将所述待识别语音数据输入预先训练好的语音识别模型中得到识别文本；其中，所述语音识别模型通过权利要求1-10任一项所述的语音识别模型训练方法所训练。 14.一种电子设备，其特征在于，所述电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-10中任一项所述的语音识别模型训练方法，和/或，权利要求11所述的语音识别方法。 15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-10中任一项所述的语音识别模型训练方法，和/或，权利要求11所述的语音识别方法。

专利专题