一种语音处理方法、装置及存储介质

引用

摘要：

本发明公开了一种语音处理方法、装置及存储介质。其中，方法包括：针对语音模板集合中的每个语音模板，利用相应语音模板对应的第一语音时长以及待识别语音对应的第二语音时长，确定规整路径的平行四边形区域；并基于确定的平行四边形区域，确定相应语音模板与待识别语音的相似度；语音模板集合中各语音模板对应的语音的语速不同；确定最大相似度对应的语音模板；利用确定的语音模板，对待识别语音进行识别。采用本发明的技术方案，平行四边形区域随着每个语音模板的语音时长的变化而变化，基于动态变化的平行四边形区域计算相似度，相对于固定平行四边形区域而言，能够进一步减少参与计算相似度的数据量，从而提高了语音识别的效率。

专利类型：发明专利

申请/专利号：CN201910453123.3

申请日期：2019-05-28

公开/公告号：CN112017641A

公开/公告日：2020-12-01

主分类号：G10L15/06(2013.01)

申请/专利权人:中移(苏州)软件技术有限公司

发明/设计人:周炳良;赵峰

主申请人地址:215163 江苏省苏州市高新区昆仑山路58号1幢

专利代理机构:北京派特恩知识产权代理有限公司

代理人:王姗姗%张颖玲

国别省市代码:江苏;32

权利要求：

1.一种语音处理方法，其特征在于，所述方法包括：针对语音模板集合中的每个语音模板，利用相应语音模板对应的第一语音时长以及待识别语音对应的第二语音时长，确定规整路径的平行四边形区域；并基于确定的平行四边形区域，确定相应语音模板与所述待识别语音的相似度，得到至少一个相似度；所述语音模板集合中各语音模板对应的语音的语速不同；基于所述至少一个相似度，确定最大相似度对应的语音模板；利用确定的语音模板，对所述待识别语音进行识别。 2.根据权利要求1所述的方法，其特征在于，所述基于确定的平行四边形区域，确定相应语音模板与所述待识别语音的相似度，得到至少一个相似度；基于所述至少一个相似度，确定最大相似度对应的语音模板，包括：按照第一截取比例，对所述待识别语音进行截取，得到截取的语音；基于截取的语音，以及确定的平行四边形区域，确定至少一个相似度；基于确定的至少一个相似度，将满足第一预设条件的语音模板从所述语音模板集合中排除；按照第二截取比例，对所述待识别语音模板进行截取，得到截取的语音；基于截取的语音，以及确定的平行四边形区域，确定至少一个相似度；基于确定的至少一个相似度，将满足第二预设条件的语音模板从所述语音模板集合中排除；依次类推，直至确定出最大相似度对应的语音模板。 3.根据权利要求2所述的方法，其特征在于，所述基于确定的至少一个相似度，将满足相应预设条件的语音模板从所述语音模板集合中排除，包括：对所述至少一个相似度进行排序，得到排序结果；从所述排序结果中查找满足相应预设条件的相似度；将满足相应预设条件的相似度对应的语音模板从所述语音模板集合中排除。 4.根据权利要求1所述的方法，其特征在于，所述利用相应语音模板对应的第一语音时长以及待识别语音对应的第二语音时长，确定规整路径的平行四边形区域，包括：针对语音模板集合中的每个语音模板，将相应语音模板对应的第一语音时长与所述待识别语音对应的第二语音时长求商，得到求商后的数值；判断求商后的数值是否满足第三预设条件；当确定求商后的数值满足第三预设条件时，利用相应语音模板对应的第一语音时长以及待识别语音对应的第二语音时长，确定规整路径的平行四边形区域。 5.根据权利要求1所述的方法，其特征在于，所述方法还包括：利用训练语音集合中每个训练语音对应的语音时长，确定第三语音时长；基于所述第三语音时长，将所述训练集合划分为多个第一子集合；所述第三语音时长是第一子集合对应的最大语音时长与最小语音时长的差值；所述训练集合中各训练语音对应的语音的语速不同；针对所述多个第一子集合中的每个子集合，从相应第一子集合包含的训练语音中选取第一训练语音；判断每个第一子集合对应的第一训练语音是否满足预设收敛条件，得到判断结果；当所述判断结果表征每个第一子集合对应的第一训练语音满足预设收敛条件时，将相应第一训练语音作为所述语音模板集合中的语音模板。 6.根据权利要求5所述的方法，其特征在于，所述判断每个第一子集合对应的第一训练语音是否满足预设收敛条件，得到判断结果，包括：针对所述多个第一子集合中的每个子集合，确定相应子集合对应的第一训练语音与各相应子集合包含的各训练语音的相似度，得到至少一个相似度；将所述至少一个相似度求和，得到求和后的数值；判断所述求和后的数值是否小于预设收敛阈值；当确定所述求和后的数值小于预设收敛阈值时，确定每个第一子集合对应的第一训练语音满足预设收敛条件。 7.根据权利要求6所述的方法，其特征在于，所述方法还包括：当确定所述求和后的数值大于或等于预设收敛阈值时，针对所述训练语音集合中的每个训练语音，确定相应训练语音与各子集合对应的第一训练语音的相似度，得到至少一个相似度；利用所述至少一个相似度，将所述训练集合重新划分为多个第二子集合；针对所述多个第二子集合中的每个子集合，从相应第二子集合包含的训练语音中选取第二训练语音；判断每个第二子集合对应的第二训练语音是否满足预设收敛条件，得到判断结果；当所述判断结果表征每个第二子集合对应的第二训练语音满足预设收敛条件时，将相应第二训练语音作为所述语音模板集合中的语音模板；当所述判断结果表征每个第二子集合对应的第二训练语音未满足预设收敛条件时，将所述训练集合再次划分为多个子集合；依次类推，直至确定出所述语音模板集合中的语音模板。 8.一种语音处理装置，其特征在于，所述装置包括：区域确定单元，用于针对语音模板集合中的每个语音模板，利用相应语音模板对应的第一语音时长以及待识别语音对应的第二语音时长，确定规整路径的平行四边形区域；模板确定单元，用于基于确定的平行四边形区域，确定相应语音模板与所述待识别语音的相似度，得到至少一个相似度；所述语音模板集合中各语音模板对应的语音的语速不同；以及基于所述至少一个相似度，确定最大相似度对应的语音模板；识别单元，用于利用确定的语音模板，对所述待识别语音进行识别。 9.一种语音处理装置，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，其中，所述处理器用于运行所述计算机程序时，执行权利要求1至7任一项所述方法的步骤。 10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。

专利专题