识别语音的方法和装置

引用

摘要：

本发明公开了识别语音的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：分别设置汉字系数和拼音系数的初始值，根据汉字系数的初始值生成汉字映射函数，根据拼音系数的初始值生成拼音映射函数；用预设的多个训练样本训练所述汉字映射函数和所述拼音映射函数，将训练结果作为联合损失函数的参数进行计算，根据计算结果生成目标映射函数；根据所述目标映射函数对待识别语音进行识别，得到所述待识别语音的汉字识别结果和拼音识别结果。该实施方式保证识别准确性的同时降低识别成本。

专利类型：发明专利

申请/专利号：CN201910354527.7

申请日期：2019-04-29

公开/公告号：CN111862961A

公开/公告日：2020-10-30

主分类号：G10L15/14(2006.01)

申请/专利权人:京东数字科技控股有限公司

发明/设计人:付立;李萧萧

主申请人地址:100176 北京市北京经济技术开发区科创十一街18号C座2层221室

专利代理机构:中原信达知识产权代理有限责任公司

代理人:张一军%张效荣

国别省市代码:北京;11

权利要求：

1.一种识别语音的方法，其特征在于，包括：分别设置汉字系数和拼音系数的初始值，根据汉字系数的初始值生成汉字映射函数，根据拼音系数的初始值生成拼音映射函数；用预设的多个训练样本训练所述汉字映射函数和所述拼音映射函数，将训练结果作为联合损失函数的参数进行计算，根据计算结果生成目标映射函数；根据所述目标映射函数对待识别语音进行识别，得到所述待识别语音的汉字识别结果和拼音识别结果。 2.根据权利要求1所述的方法，其特征在于，用预设的多个训练样本训练所述汉字映射函数和所述拼音映射函数，将训练结果作为联合损失函数的参数进行计算，根据计算结果生成目标映射函数，包括：根据所述汉字映射函数、所述拼音映射函数和预设的多个训练样本得到各个训练样本的汉字损失值和拼音损失值；将各个训练样本的所述汉字损失值和所述拼音损失值作为联合损失函数的参数进行计算，得到各个训练样本的联合损失值；根据各个训练样本的所述联合损失值采用反向传播算法进行计算，得到汉字系数和拼音系数的目标值，根据所述目标值生成目标映射函数。 3.根据权利要求2所述的方法，其特征在于，所述训练样本包括样本语音的频谱、与所述样本语音匹配的汉字和与所述样本语音匹配的拼音；根据所述汉字映射函数、所述拼音映射函数和预设的多个训练样本得到各个训练样本的汉字损失值和拼音损失值，包括：针对预设的各个训练样本，将该训练样本中的频谱分别作为所述汉字映射函数和所述拼音映射函数的参数进行计算，得到该训练样本的汉字识别结果和拼音识别结果；将该训练样本的汉字识别结果与该训练样本中的汉字的差作为该训练样本的汉字损失值；将该训练样本的拼音识别结果与该训练样本中的拼音的差作为该训练样本的拼音损失值。 4.根据权利要求2所述的方法，其特征在于，将各个训练样本的所述汉字损失值和所述拼音损失值作为联合损失函数的参数进行计算，得到各个训练样本的联合损失值，包括：针对各个训练样本，将预设的汉字权重与该训练样本的所述汉字损失值的乘积作为第一数值；将预设的拼音权重与该训练样本的所述拼音损失值的乘积作为第二数值；其中，所述汉字权重与所述拼音权重的和为1；将所述汉字系数的初始值的二范数与所述拼音系数的初始值的二范数的和作为第三数值，将所述第三数值与预设的正则项系数的乘积作为第四数值；将所述第一数值、所述第二数值与所述第四数值的和作为该训练样本的联合损失值。 5.根据权利要求1所述的方法，其特征在于，根据所述目标映射函数对待识别语音进行识别，得到所述待识别语音的汉字识别结果和拼音识别结果，包括：对待识别语音的时域进行短时傅里叶变换，得到所述待识别语音的频谱；将所述待识别语音的频谱作为所述目标映射函数的参数进行计算，得到所述待识别语音的汉字识别结果和拼音识别结果。 6.一种识别语音的装置，其特征在于，包括：生成单元，用于分别设置汉字系数和拼音系数的初始值，根据汉字系数的初始值生成汉字映射函数，根据拼音系数的初始值生成拼音映射函数；处理单元，用于用预设的多个训练样本训练所述汉字映射函数和所述拼音映射函数，将训练结果作为联合损失函数的参数进行计算，根据计算结果生成目标映射函数；识别单元，用于根据所述目标映射函数对待识别语音进行识别，得到所述待识别语音的汉字识别结果和拼音识别结果。 7.根据权利要求6所述的装置，其特征在于，所述处理单元用于：根据所述汉字映射函数、所述拼音映射函数和预设的多个训练样本得到各个训练样本的汉字损失值和拼音损失值；将各个训练样本的所述汉字损失值和所述拼音损失值作为联合损失函数的参数进行计算，得到各个训练样本的联合损失值；根据各个训练样本的所述联合损失值采用反向传播算法进行计算，得到汉字系数和拼音系数的目标值，根据所述目标值生成目标映射函数。 8.根据权利要求7所述的装置，其特征在于，所述训练样本包括样本语音的频谱、与所述样本语音匹配的汉字和与所述样本语音匹配的拼音；所述处理单元用于：针对预设的各个训练样本，将该训练样本中的频谱分别作为所述汉字映射函数和所述拼音映射函数的参数进行计算，得到该训练样本的汉字识别结果和拼音识别结果；将该训练样本的汉字识别结果与该训练样本中的汉字的差作为该训练样本的汉字损失值；将该训练样本的拼音识别结果与该训练样本中的拼音的差作为该训练样本的拼音损失值。 9.根据权利要求7所述的装置，其特征在于，所述处理单元用于：针对各个训练样本，将预设的汉字权重与该训练样本的所述汉字损失值的乘积作为第一数值；将预设的拼音权重与该训练样本的所述拼音损失值的乘积作为第二数值；其中，所述汉字权重与所述拼音权重的和为1；将所述汉字系数的初始值的二范数与所述拼音系数的初始值的二范数的和作为第三数值，将所述第三数值与预设的正则项系数的乘积作为第四数值；将所述第一数值、所述第二数值与所述第四数值的和作为该训练样本的联合损失值。 10.根据权利要求6所述的装置，其特征在于，所述识别单元用于：对待识别语音的时域进行短时傅里叶变换，得到所述待识别语音的频谱；将所述待识别语音的频谱作为所述目标映射函数的参数进行计算，得到所述待识别语音的汉字识别结果和拼音识别结果。 11.一种电子设备，其特征在于，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。 12.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。

专利专题