语音识别模型的训练方法、装置、电子设备及存储介质

引用

摘要：

本公开提供了一种语音识别模型的训练方法、装置、电子设备及存储介质，所述方法包括：基于无监督的第一语音数据对编码器的参数进行更新，得到预训练后的编码器；将有监督的第二语音数据输入目标语音识别模型，得到所述目标语音识别模型中解码器输出的目标标签序列，其中，所述目标语音识别模型中编码器为所述预训练后的编码器；基于所述第二语音数据以及所述目标标签序列，获取注意力损失函数以及连续时间分类CTC损失函数；基于所述注意力损失函数以及所述CTC损失函数对所述目标语音识别模型的参数进行更新，得到训练完成的目标语音识别模型。本公开实施例能够提高语音识别模型的泛用性。

专利类型：发明专利

申请/专利号：CN202010733065.2

申请日期：2020-07-27

公开/公告号：CN111916067A

公开/公告日：2020-11-10

主分类号：G10L15/16(2006.01)

申请/专利权人:腾讯科技(深圳)有限公司

发明/设计人:柳璐;黄羿衡

主申请人地址:518057 广东省深圳市南山区高新区科技中一路腾讯大厦35层

专利代理机构:深圳市隆天联鼎知识产权代理有限公司

代理人:叶虹

国别省市代码:广东;44

权利要求：

1.一种语音识别模型的训练方法，其特征在于，所述语音识别模型包括编码器以及解码器，其中，所述编码器将语音数据降采样后进行掩码处理并编码为重构声学特征，所述解码器将所述重构声学特征解码为标签序列，所述方法包括：基于无监督的第一语音数据对编码器的参数进行更新，得到预训练后的编码器；将有监督的第二语音数据输入目标语音识别模型，得到所述目标语音识别模型中解码器输出的目标标签序列，其中，所述目标语音识别模型中编码器为所述预训练后的编码器；基于所述第二语音数据以及所述目标标签序列，获取所述目标语音识别模型的注意力损失函数，以及与所述目标语音识别模型中解码器共享所述目标语音识别模型中编码器的连续时间分类CTC损失函数；基于所述注意力损失函数以及所述CTC损失函数对所述目标语音识别模型的参数进行更新，得到训练完成的目标语音识别模型。 2.根据权利要求1所述的方法，其特征在于，将语音数据降采样后进行掩码处理并编码为重构声学特征，包括：获取所述语音数据对应的语音帧序列；对所述语音帧序列进行降采样，得到降采样后的语音帧序列；对所述降采样后的语音帧序列进行掩码处理，得到掩码后的语音帧序列；基于自注意力层将所述掩码后的语音帧序列编码为所述重构声学特征。 3.根据权利要求2所述的方法，其特征在于，对所述降采样后的语音帧序列进行掩码处理，包括：根据预设选取比例从所述降采样后的语音帧序列中随机选取出各待掩码的语音帧；针对每一所述待掩码的语音帧，以第一概率将所述待掩码的语音帧转换为0向量，以第二概率将所述待掩码的语音帧转换为随机帧，以第三概率保持所述待掩码的语音帧不变，其中，所述第一概率、所述第二概率以及所述第三概率之和为1。 4.根据权利要求2所述的方法，其特征在于，对所述降采样后的语音帧序列进行掩码处理，包括：根据预设选取比例从所述降采样后的语音帧序列中随机选取出各待掩码的语音帧组，每一所述语音帧组由连续的至少两个语音帧组成；针对每一所述待掩码的语音帧组，以第一概率将所述待掩码的语音帧组中的语音帧转换为0向量，以第二概率将所述待掩码的语音帧组中的语音帧转换为随机帧，以第三概率保持所述待掩码的语音帧组不变，其中，所述第一概率、所述第二概率以及所述第三概率之和为1。 5.根据权利要求1所述的方法，其特征在于，将所述重构声学特征解码为标签序列，包括：获取所述重构声学特征；基于掩码多头注意力层清除与输入序列的非法连接，并基于所述输入序列将所述重构声学特征解码为所述标签序列。 6.根据权利要求1所述的方法，其特征在于，基于无监督的第一语音数据对所述编码器的参数进行更新，包括：将所述第一语音数据输入所述编码器，获取所述编码器将所述第一语音数据降采样后进行掩码处理所得到的掩码声学特征以及所述编码器编码所述掩码声学特征所得到的重构声学特征；基于所述第一语音数据的掩码声学特征与所述第一语音数据的重构声学特征，确定所述编码器的损失函数；基于所述编码器的损失函数对所述编码器的参数进行更新，得到更新后的编码器。 7.根据权利要求6所述的方法，其特征在于，在基于所述编码器的损失函数对所述编码器的参数进行更新之后，所述方法还包括：获取预设的验证集中的验证语音数据；将所述验证语音数据输入所述更新后的编码器，得到所述验证语音数据的掩码声学特征以及所述验证语音数据的重构声学特征；若检测到所述验证语音数据的掩码声学特征与所述验证语音数据的重构声学特征之间的损失值触发预设损失值阈值，则停止所述预训练，得到所述预训练后的编码器。 8.根据权利要求1所述的方法，其特征在于，基于所述注意力损失函数以及所述CTC损失函数对所述目标语音识别模型的参数进行更新，包括：根据预先分别向所述注意力损失函数以及所述CTC损失函数分配的权重，对所述注意力损失函数以及所述CTC损失函数进行加权，得到联合损失函数；根据所述联合损失函数对所述目标语音识别模型的参数进行更新。 9.根据权利要求8所述的方法，其特征在于，根据所述联合损失函数对所述目标语音识别模型的参数进行更新，包括：根据所述联合损失函数对所述目标语音识别模型中编码器的参数以及所述目标语音识别模型中解码器的参数共同进行更新。 10.根据权利要求8所述的方法，其特征在于，根据所述联合损失函数对所述目标语音识别模型的参数进行更新，包括：根据所述联合损失函数对所述目标语音识别模型中解码器的参数进行更新，其中，保持所述目标语音识别模型中编码器的参数不变。 11.根据权利要求10所述的方法，其特征在于，保持所述目标语音识别模型中编码器的参数不变，包括：将所述目标语音识别模型中编码器的参数从可更新参数列表中删除。 12.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取预设的测试集中的测试语音数据；基于所述测试语音数据对所述训练完成的目标语音识别模型中解码器进行测试，并根据测试结果确定是否对所述训练完成的目标语音识别模型再次训练。 13.一种语音识别模型的训练装置，其特征在于，所述装置包括：第一更新模块，配置为基于无监督的第一语音数据对编码器的参数进行更新，得到预训练后的编码器；输入模块，配置为将有监督的第二语音数据输入目标语音识别模型，得到所述目标语音识别模型中解码器输出的目标标签序列，其中，所述目标语音识别模型中编码器为所述预训练后的编码器；获取模块，配置为基于所述第二语音数据以及所述目标标签序列，获取所述目标语音识别模型的注意力损失函数，以及与所述目标语音识别模型中解码器共享所述目标语音识别模型中编码器的连续时间分类CTC损失函数；第二更新模块，配置为基于所述注意力损失函数以及所述CTC损失函数对所述目标语音识别模型的参数进行更新，得到训练完成的目标语音识别模型。 14.一种语音识别模型的训练电子设备，其特征在于，包括：存储器，存储有计算机可读指令；处理器，读取存储器存储的计算机可读指令，以执行权利要求1-12中的任一个所述的方法。 15.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1-12中的任一个所述的方法。

专利专题