语音识别纠错方法、装置以及存储介质
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

语音识别纠错方法、装置以及存储介质

引用
本公开提供了一种语音识别纠错方法、装置以及存储介质,涉及计算机技术领域,其中方法包括:基于热词、场景关键词以及热词与场景关键词之间的对应关系,建立热词场景关联关系信息,热词场景关联关系信息可以为无向图等,将热词场景关联关系信息与语音识别文本进行匹配处理,获得与错误信息相对应的替换信息进行替换处理。本公开的方法、装置以及存储介质,能够动态设置热词,可以在短时间内提高热词的识别准确率,适应不断变化的场景需求,并可以快速生效、部署,无需重新训练模型,可通过动态调整配置实现动态热词的修改;采用无向图和双向匹配的算法,能够提高识别准确率和算法的效率、性能,可以提高用户的使用感受度。

发明专利

CN201910196253.3

2019-03-15

CN111696545A

2020-09-22

G10L15/22(2006.01)

北京京东尚科信息技术有限公司

马浩

100086 北京市海淀区知春路76号8层

中国贸促会专利商标事务所有限公司

方亮

北京;11

1.一种语音识别纠错方法,包括: 基于热词、场景关键词以及所述热词与所述场景关键词之间的对应关系,建立热词场景关联关系信息; 对语音信息进行识别,获得语音识别文本; 将所述热词场景关联关系信息与所述语音识别文本进行匹配处理; 基于匹配结果确定所述语音识别文本中是否有错误信息,如果有,则基于所述热词场景关联关系信息获得与所述错误信息相对应的替换信息,用以对所述错误信息进行替换处理。 2.如权利要求1所述的方法,所述建立热词场景关联关系信息包括: 获得与所述热词相对应的第一拼音信息、与所述场景关键词相对应的第二拼音信息; 根据所述对应关系确定所述热词与所述场景关键词拼连后的热点拼连语句; 基于所述第一拼音信息、所述第二拼音信息以及所述热点拼连语句建立所述热词场景关联关系信息。 3.如权利要求2所述的方法,所述将所述热词场景关联关系信息与所述语音识别文本进行匹配处理包括: 获得与所述语音识别文本相对应的第三拼音信息; 将所述热词场景关联关系信息与所述第三拼音信息进行匹配处理。 4.如权利要求3所述的方法,所述热词场景关联关系信息包括:热词场景无向图;所述建立所述热词场景关联关系信息包括: 将所述第一拼音信息和所述第二拼音信息的每个对应于不同字符的拼音作为节点;其中,所述字符包括:汉字或其他符号; 根据所述热词和所述场景关键词的字符组成以及所述热点拼连语句的拼连关系,获得所述节点之间的连线; 基于所述节点和所述连线生成所述热词场景无向图。 5.如权利要求4所述的方法,所述将所述热词场景关联关系信息与所述第三拼音信息进行匹配处理包括: 获得与所述第三拼音信息相对应的识别文本拼音序列; 在所述热词场景无向图中确定与所述热点拼连语句相对应的热点拼连语句路径; 将所述识别文本拼音序列中的各个第一拼音顺序地与所述热点拼连语句路径中的各个节点对应的第二拼音进行一一对应匹配,用以基于匹配结果确定所述语音识别文本中是否有错误信息。 6.如权利要求5所述的方法,所述识别文本拼音序列包括:正向识别文本拼音序列和反向识别文本拼音序列;所述进行一一对应匹配处理包括: 将所述正向识别文本拼音序列中的各个第一拼音分别顺序地与所述语句路径中的各个节点对应的第二拼音进行一一对应正向匹配处理; 将所述反向识别文本拼音序列中的各个第一拼音分别顺序地与所述语句路径中的各个节点对应的第二拼音进行一一对应反向匹配处理; 如果所述正向识别文本拼音序列和所述反向识别文本拼音序列中的第一拼音与所述第二拼音的匹配不成功都对应于所述热点拼连语句路径中的同一节点,则获得此节点对应的字符替换此第一拼音所对应的字符。 7.如权利要求6所述的方法,所述进行一一对应匹配处理包括: 如果所述正向识别文本拼音序列和所述反向识别文本拼音序列中的全部第一拼音都与所述第二拼音一一匹配成功,则判断所述第一拼音与所述第二拼音对应的字符是否相同; 如果否,则使用所述第二拼音对应的字符替换所述第一拼音对应的字符。 8.如权利要求4所述的方法,还包括: 建立热词拼音词典,使用所述热词拼音词典保存的热词场景拼音信息包括:所述热词、场景关键词、所述第一拼音信息和所述第二拼音信息; 对每一个热词场景拼音信息建立对应的热词场景无向图。 9.如权利要求1至8任一项所述的方法,其中, 对所述语音信息进行的语音识别包括:ASR识别。 10.一种语音识别纠错装置,包括: 关联信息建立模块,用于基于热词、场景关键词以及所述热词与所述场景关键词之间的对应关系,建立热词场景关联关系信息; 语音文本获得模块,用于对语音信息进行识别,获得语音识别文本; 文本匹配处理模块,用于将所述热词场景关联关系信息与所述语音识别文本进行匹配处理; 匹配结果处理模块,用于基于匹配结果确定所述语音识别文本中是否有错误信息,如果有,则基于所述热词场景关联关系信息获得与所述错误信息相对应的替换信息,用以对所述错误信息进行替换处理。 11.一种语音识别纠错装置,包括: 存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1至9中任一项所述的方法。 12.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行如权利要求1至9中任一项所述的方法。
相关文献
评论
法律状态详情>>
2020-09-22公开
2020-09-22公开
2020-09-22公开
相关作者
相关机构