基于标签平滑的语音识别方法、装置、终端及介质

引用

摘要：

本申请公开了一种基于标签平滑的语音识别方法，包括：获取训练数据，所述训练数据包括多个训练样本，每一个所述训练样本包括样本语音及与样本语音对应的样本识别标签；基于预设的同音字字典，对所述样本识别标签进行标签平滑处理，获取经过标签平滑处理后的样本平滑标签；根据训练样本和所述样本平滑标签对预设的语音识别模型进行训练，并基于预设的损失函数，计算与所述训练样本对应的损失值；根据损失值进行反向传播，以完成对所述预设的语音识别模型的训练。此外，本申请还公开了一种语音识别模型的训练装置、智能终端及计算机可读存储介质。采用本申请，可以提高语音识别模型的语音识别准确性。

专利类型：发明专利

申请/专利号：CN202010366735.1

申请日期：2020-04-30

公开/公告号：CN111583911A

公开/公告日：2020-08-25

主分类号：G10L15/06(2013.01)

申请/专利权人:深圳市优必选科技股份有限公司

发明/设计人:郑诣;杨显杰;熊友军

主申请人地址:518000 广东省深圳市南山区学苑大道1001号南山智园C1栋16、22楼

专利代理机构:深圳中细软知识产权代理有限公司

代理人:孔祥丹

国别省市代码:广东;44

权利要求：

1.一种基于标签平滑的语音识别方法，其特征在于，包括：获取训练数据，所述训练数据包括多个训练样本，每一个所述训练样本包括样本语音及与样本语音对应的样本识别标签；基于预设的同音字字典，对所述样本识别标签进行标签平滑处理，获取经过标签平滑处理后的样本平滑标签；根据训练样本和所述样本平滑标签对预设的语音识别模型进行训练，并基于预设的损失函数，计算与所述训练样本对应的损失值；根据损失值进行反向传播，以完成对所述预设的语音识别模型的训练。 2.根据权利要求1所述的基于标签平滑的语音识别方法，其特征在于，所述根据训练样本和所述样本平滑标签对预设的语音识别模型进行训练，并基于预设的损失函数，计算与所述训练样本对应的损失值的步骤，还包括：将所述样本语音输入所述预设的语音识别模型，获取所述预设的语音识别模型输出的测试识别标签；根据预设的损失函数，计算所述测试识别标签与所述样本平滑标签之间的损失值。 3.根据权利要求2所述的基于标签平滑的语音识别方法，其特征在于，所述基于预设的同音字字典，对所述样本识别标签进行标签平滑处理，获取经过标签平滑处理后的样本平滑标签的步骤，还包括：基于所述预设的同音字字典，确定与每一个样本识别标签对应的至少一个同音字标签；基于所述确定的同音字标签，对所述样本识别标签进行标签平滑处理，确定与所述样本识别标签对应的第一分布信息；将所述第一分布信息作为样本平滑标签。 4.根据权利要求3所述的基于标签平滑的语音识别方法，其特征在于，每一个所述样本识别标签包括与该样本识别标签对应的文字序列；所述基于所述预设的同音字字典，确定与每一个样本识别标签对应的至少一个同音字标签的步骤，还包括：确定与所述样本识别标签对应的样本拼音序列，所述样本拼音序列包括与所述样本识别标签对应的文字序列对应的若干个拼音标签；基于所述预设的同音字字典，分别确定与每一个拼音标签对应的所述至少一个同音字标签。 5.根据权利要求3所述的基于标签平滑的语音识别方法，其特征在于，所述基于所述预设的同音字字典，确定与每一个样本识别标签对应的多个同音字标签的步骤包括：基于预设的同音字字典，确定与每一个所述拼音标签对应的至少一个同音字标签和至少一个非同音字标签；所述基于所述确定的同音字标签，对所述样本识别标签进行标签平滑处理，确定与所述样本识别标签对应的第一分布信息的步骤，还包括：获取预设的概率系数，根据所述预设的概率系数确定所述样本识别标签、多个同音字标签和/或多个非同音字标签中的一个或多个的标签概率；根据所述样本识别标签、多个同音字标签和/或多个非同音字标签中的一个或多个的标签概率确定所述第一分布信息。 6.根据权利要求3所述的基于标签平滑的语音识别方法，其特征在于，所述将所述样本语音输入所述预设的语音识别模型，获取所述预设的语音识别模型输出的测试识别标签的步骤，还包括：根据所述测试识别标签，确定第二分布信息；所述基于预设的损失函数，计算与所述训练样本对应的损失值的步骤，还包括：基于预设的交叉熵损失函数，计算与所述训练样本对应的交叉熵项；基于预设的KL距离计算公式，计算所述第一分布信息和所述第二分布信息之间的KL距离值，作为KL罚项；根据所述KL罚项和所述交叉熵项，计算所述损失值。 7.根据权利要求1所述的基于标签平滑的语音识别方法，其特征在于，所述预设的语音识别模型为端到端的神经网络模型。 8.一种基于标签平滑的语音识别装置，其特征在于，包括：训练数据获取模块，用于获取训练数据，所述训练数据包括多个训练样本，每一个所述训练样本包括样本语音及与样本语音对应的样本识别标签；标签平滑处理模块，用于基于预设的同音字字典，对所述样本识别标签进行标签平滑处理，获取经过标签平滑处理后的样本平滑标签；损失值计算模块，用于根据训练样本和所述样本平滑标签对预设的语音识别模型进行训练，并基于预设的损失函数，计算与所述训练样本对应的损失值；反向传播训练模块，用于根据损失值进行反向传播，以完成对所述预设的语音识别模型的训练。 9.一种非暂时性计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。 10.一种智能终端，包括非暂时性存储器和处理器，所述非暂时性存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。

专利专题