一种语音识别方法、装置、设备及存储介质

引用

摘要：

本发明提供了一种语音识别方法、装置、设备及存储介质，其中语音识别方法包括：获取包含若干音频片段的第一音频片段集合；对每段所述音频片段分别识别出多个最优识别结果；基于所述最优识别结果，将第一音频片段集合中，最优识别结果同时包括至少一个表示噪声的识别结果和至少一个表示静音的识别结果对应的音频片段作为强噪声片段过滤，获得第二音频片段集合；对所述第二音频片段集合中的每段音频片段进行语音识别，输出语音识别结果。本发明能够有效解决强噪声及突发强噪声对语音识别结果造成的影响，提高了语音识别的准确率。

专利类型：发明专利

申请/专利号：CN202110253178.7

申请日期：2021-03-09

公开/公告号：CN112634908A

公开/公告日：2021-04-09

主分类号：G10L15/32(2013.01)

申请/专利权人:北京世纪好未来教育科技有限公司

发明/设计人:王桑;李成飞;杨嵩

主申请人地址:100872 北京市海淀区中关村大街32号蓝天和盛大厦1702-03室

专利代理机构:北京鼎承知识产权代理有限公司

代理人:顾可嘉%夏华栋

国别省市代码:北京;11

权利要求：

1.一种语音识别方法，其特征在于，包括：获取包含若干音频片段的第一音频片段集合；对每段所述音频片段分别识别出多个最优识别结果；基于所述最优识别结果，将第一音频片段集合中，最优识别结果同时包括至少一个表示噪声的识别结果和至少一个表示静音的识别结果对应的音频片段作为强噪声片段过滤，获得第二音频片段集合；对所述第二音频片段集合中的每段音频片段进行语音识别，输出语音识别结果。 2.如权利要求1所述的方法，其特征在于，作为强噪声片段的所述音频片段的最优识别结果还同时包括至少一个高频词，所述高频词为预先统计的在语音识别结果中出现概率超过预设第一阈值的词。 3.如权利要求1所述的方法，其特征在于，对每段所述音频片段分别识别出多个最优识别结果，包括：分别对每段所述音频片段进行语言识别，获取每段所述音频片段的多个优选识别路径；获取每个所述优选识别路径对应的识别结果作为最优识别结果，得到每段所述音频片段的多个最优识别结果。 4.如权利要求3所述的方法，其特征在于，分别对每段所述音频片段进行语言识别，获取每段所述音频片段的多个优选识别路径，包括：分别对每段所述音频进行语音识别，获取每段所述音频片段的全部识别路径；基于声学模型，获取每个所述识别路径的声学模型得分；基于语言模型，获取每个所述识别路径的语言模型得分；由所述声学模型得分和所述语言模型得分加权计算，获取每个识别路径的评分结果；基于评分结果，对每段所述音频片段对应的所有所述识别路径由高到低进行排序，并依据排序结果选取前多个所述识别路径作为该段所述音频片段的多个优选识别路径。 5.如权利要求1所述的方法，其特征在于，对所述第二音频片段集合中的每段音频片段进行语音识别，输出语音识别结果，包括：对所述第二音频片段集合中的每段音频片段进行语音识别，获取所述第二音频片段集合中的每段所述音频片段的词级识别结果；过滤所述词级识别结果中的误识别内容，输出语音识别结果。 6.如权利要求5所述的方法，其特征在于，所述词级识别结果中包括词的置信度；过滤所述词级识别结果中的误识别内容，包括：将所述置信度小于预设第二阈值的词作为强噪声干扰的词过滤。 7.如权利要求1所述的方法，其特征在于，获取包含若干音频片段的第一音频片段集合，包括：基于切割规则，对待识别的音频进行切割，获取包含若干音频片段的待识别音频片段集合；过滤所述待识别音频片段集合中的长时静音片段，获得包含若干音频片段的第一音频片段集合。 8.如权利要求7所述的方法，其特征在于，所述基于切割规则，对待识别的音频进行切割，获取包含若干音频片段的待识别音频片段集合；包括：获取待识别的所述音频的每一帧数据的判别信息，其中，所述判别信息包括静音和非静音；若待识别的所述音频中，连续数帧音频数据的所述判别信息为静音，且连续帧数大于或等于预设第三阈值，则记录所述连续数帧音频数据的开始时间和结束时间，作为所述音频的切割点；基于所述切割点，对待识别的所述音频进行切割。 9.一种语音识别装置，其特征在于，包括：语音获取模块，用于获取包含若干音频片段的第一音频片段集合；语音识别模块，用于对每段所述音频片段分别识别出多个最优识别结果；强噪声过滤模块，用于基于所述最优识别结果，将第一音频片段集合中，最优识别结果同时包括至少一个表示噪声的识别结果和至少一个表示静音的识别结果对应的音频片段作为强噪声片段过滤，获得第二音频片段集合；结果输出模块，用于对所述第二音频片段集合中的每段音频片段进行语音识别，输出语音识别结果。 10.如权利要求9所述的装置，其特征在于，所述结果输出模块，具体用于：对所述第二音频片段集合中的每段音频片段进行语音识别，获取所述第二音频片段集合中的每段所述音频片段的词级识别结果；过滤所述词级识别结果中的误识别内容，输出语音识别结果。 11.一种可读存储介质，其特征在于，其上具有可执行指令，当可执行指令被执行时，使得计算机执行如权利要求1-8任一项所述的语音识别方法中的步骤。 12.一种语音识别设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有适于所述处理器执行的计算机程序指令，所述计算机程序指令被所述处理器运行时执行如权利要求1-8任一项所述的语音识别方法中的步骤。

专利专题