语音处理模型训练方法和装置

引用

摘要：

本申请提出一种语音处理模型训练方法和装置，其中，方法包括：通过获取目标语音识别场景的训练数据；训练数据包含第一类语音数据和第二类语音数据，第一类语音数据与目标语音识别场景的语音特征的匹配度大于第二类语音数据与语音特征的匹配度；生成联合模型结构；将训练数据输入联合模型结构，通过输入层和共享隐层对训练数据进行训练，并通过第一隐层和第一输出层对共享隐层输出的第一类语音数据进行训练，且联合第二隐层和第二输出层对共享隐层输出的第二类语音数据进行训练；根据输入层、共享隐层、第一隐层和第一输出层对应训练的模型参数生成语音处理模型。由此，通过在隐层就开始对训练数据进行拆分训练，提高了语音处理模型训练的准确性。

专利类型：发明专利

申请/专利号：CN201910297777.1

申请日期：2019-04-15

公开/公告号：CN111833847A

公开/公告日：2020-10-27

主分类号：G10L15/02(2006.01)

申请/专利权人:北京百度网讯科技有限公司

发明/设计人:霍昱光;徐扬凯

主申请人地址:100085 北京市海淀区上地十街10号百度大厦2层

专利代理机构:北京清亦华知识产权代理事务所(普通合伙)

代理人:宋合成

国别省市代码:北京;11

权利要求：

1.一种语音处理模型训练方法，其特征在于，包括以下步骤：获取目标语音识别场景的训练数据；其中，所述训练数据包含第一类语音数据和第二类语音数据，其中，所述第一类语音数据与所述目标语音识别场景的语音特征的匹配度大于所述第二类语音数据与所述语音特征的匹配度；生成联合模型结构，其中，所述联合模型结构包括：输入层、共享隐层、第一隐层和第一输出层、以及第二隐层和第二输出层；将所述训练数据输入所述联合模型结构，通过所述输入层和所述共享隐层对所述训练数据进行训练，并通过所述第一隐层和所述第一输出层对所述共享隐层输出的所述第一类语音数据进行训练，且联合所述第二隐层和所述第二输出层对所述共享隐层输出的所述第二类语音数据进行训练；根据所述输入层、所述共享隐层、所述第一隐层和所述第一输出层对应训练的模型参数生成语音处理模型。 2.如权利要求1所述的方法，其特征在于，所述获取目标语音识别场景的训练数据，包括：获取多个语音数据，并获取每一个语音数据的背景噪声；所述背景噪声与所述目标语音识别场景的背景噪声匹配度大于等于第一预设阈值对应的语音数据确定为所述第一类语音数据；所述背景噪声与所述目标语音识别场景的背景噪音匹配度小于所述第一预设阈值对应的语音数据确定为所述第二类语音数据；根据所述第一类语音数据和所述第二类语音数据生成所述目标语音识别场景的训练数据。 3.如权利要求1所述的方法，其特征在于，所述获取目标语音识别场景的训练数据，包括：获取多个语音数据，并获取每一个语音数据的语句长度和语句语法特征；所述语句长度和语句语法特征与所述目标语音识别场景的语句长度和语句语法特征匹配度大于等于第二预设阈值对应的语音数据确定为所述第一类语音数据；所述语句长度和语句语法特征与所述目标语音识别场景的语句长度和语句语法特征匹配度小于所述第二预设阈值对应的语音数据确定为所述第二类语音数据；根据所述第一类语音数据和所述第二类语音数据生成所述目标语音识别场景的训练数据。 4.如权利要求1所述的方法，其特征在于，所述生成联合模型结构，包括：获取预设的神经网络模型，其中，所述预设的神经网络模型包括：输入层、共享隐层和输出层；复制所述共享隐层中的最后一个隐层，以及复制所述输出层生成包括：输入层、共享隐层、第一隐层和第一输出层、以及第二隐层和第二输出层的所述联合模型结构。 5.如权利要求1所述的方法，其特征在于，所述根据所述输入层、所述共享隐层、所述第一隐层和所述第一输出层对应训练的模型参数生成语音处理模型，包括：获取所述第一输出层对应的第一目标函数和所述第二输出层对应的第二目标函数；根据所述第一目标函数对所述第一隐层输出的语音数据进行训练，以及根据所述第二目标函数对所述第二隐层输出的语音数据进行训练；当训练满足预设条件时，确定所述输入层、所述共享隐层、所述第一隐层和所述第一输出层对应训练的模型参数；根据所述模型参数生成语音处理模型。 6.一种语音处理模型训练装置，其特征在于，包括以下步骤：获取模块，用于获取目标语音识别场景的训练数据；其中，所述训练数据包含第一类语音数据和第二类语音数据，其中，所述第一类语音数据与所述目标语音识别场景的语音特征的匹配度大于所述第二类语音数据与所述语音特征的匹配度；生成模块，用于生成联合模型结构，其中，所述联合模型结构包括：输入层、共享隐层、第一隐层和第一输出层、以及第二隐层和第二输出层；训练模块，用于将所述训练数据输入所述联合模型结构，通过所述输入层和所述共享隐层对所述训练数据进行训练，并通过所述第一隐层和所述第一输出层对所述共享隐层输出的所述第一类语音数据进行训练，且联合所述第二隐层和所述第二输出层对所述共享隐层输出的所述第二类语音数据进行训练；处理模块，用于根据所述输入层、所述共享隐层、所述第一隐层和所述第一输出层对应训练的模型参数生成语音处理模型。 7.如权利要求6所述的装置，其特征在于，所述获取模块，具体用于：获取多个语音数据，并获取每一个语音数据的背景噪声；所述背景噪声与所述目标语音识别场景的背景噪声匹配度大于等于第一预设阈值对应的语音数据确定为所述第一类语音数据；所述背景噪声与所述目标语音识别场景的背景噪音匹配度小于所述第一预设阈值对应的语音数据确定为所述第二类语音数据；根据所述第一类语音数据和所述第二类语音数据生成所述目标语音识别场景的训练数据。 8.如权利要求6所述的装置，其特征在于，所述获取模块，具体用于：获取多个语音数据，并获取每一个语音数据的语句长度和语句语法特征；所述语句长度和语句语法特征与所述目标语音识别场景的语句长度和语句语法特征匹配度大于等于第二预设阈值对应的语音数据确定为所述第一类语音数据；所述语句长度和语句语法特征与所述目标语音识别场景的语句长度和语句语法特征匹配度小于所述第二预设阈值对应的语音数据确定为所述第二类语音数据；根据所述第一类语音数据和所述第二类语音数据生成所述目标语音识别场景的训练数据。 9.如权利要求6所述的装置，其特征在于，所述生成模块，具体用于：获取预设的神经网络模型，其中，所述预设的神经网络模型包括：输入层、共享隐层和输出层；复制所述共享隐层中的最后一个隐层，以及复制所述输出层生成包括：输入层、共享隐层、第一隐层和第一输出层、以及第二隐层和第二输出层的所述联合模型结构。 10.如权利要求6所述的方法，其特征在于，所述处理模块，具体用于：获取所述第一输出层对应的第一目标函数和所述第二输出层对应的第二目标函数；根据所述第一目标函数对所述第一隐层输出的语音数据进行训练，以及根据所述第二目标函数对所述第二隐层输出的语音数据进行训练；当训练满足预设条件时，确定所述输入层、所述共享隐层、所述第一隐层和所述第一输出层对应训练的模型参数；根据所述模型参数生成语音处理模型。 11.一种计算机设备，其特征在于，包括处理器和存储器；其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现如权利要求1-5中任一项所述的语音处理模型训练方法。 12.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的语音处理模型训练方法。

专利专题