语音识别评估方法、装置、存储介质及设备
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

语音识别评估方法、装置、存储介质及设备

引用
本公开实施例公开了语音识别评估方法、装置、存储介质及设备。该方法包括:基于预设前置处理策略对标注文本和语音识别文本进行处理,得到对应的目标标注文本和目标语音识别文本,其中,标注文本和语音识别文本对应相同的样本音频数据,语音识别文本包括利用预设语音识别方案对样本音频数据进行语音识别后输出的识别结果,基于预设对比算法确定目标标注文本和目标语音识别文本的对比结果,根据对比结果评估预设语音识别方案的准确度信息。通过采用上述技术方案,在针对语音识别文本进行评估前,先对标注文本和语音识别文本进行同样的前置处理,可以消除两者在一些方面(如格式等)的不一致性,避免对识别结果产生影响,使得评估结果更加准确。

发明专利

CN202010495673.4

2020-06-03

CN111681642A

2020-09-18

G10L15/01(2013.01)

北京字节跳动网络技术有限公司

赵立;徐文铭;杨晶生;韩晓

100041 北京市石景山区实兴大街30号院3号楼2层B-0035房间

北京远智汇知识产权代理有限公司

范坤坤

北京;11

1.一种语音识别评估方法,其特征在于,包括: 基于预设前置处理策略对标注文本和语音识别文本进行处理,得到对应的目标标注文本和目标语音识别文本,其中,所述标注文本和所述语音识别文本对应相同的样本音频数据,所述语音识别文本包括利用预设语音识别方案对所述样本音频数据进行语音识别后输出的识别结果; 基于预设对比算法确定所述目标标注文本和所述目标语音识别文本的对比结果; 根据所述对比结果评估所述预设语音识别方案的准确度信息。 2.根据权利要求1所述的方法,其特征在于,所述基于预设前置处理策略对标注文本和语音识别文本进行处理,包括: 基于预设前置处理策略对标注文本和语音识别文本进行针对相同的项目的处理,所述项目包括段落格式、字符占位、文字表达方式以及干扰字符中的至少一个。 3.根据权利要求2所述的方法,其特征在于,基于预设前置处理策略对标注文本和语音识别文本进行针对段落格式的处理包括: 对标注文本和语音识别文本进行多行转单行处理。 4.根据权利要求2所述的方法,其特征在于,基于预设前置处理策略对标注文本和语音识别文本进行针对字符占位的处理包括: 对标注文本和语音识别文本进行全角转半角处理。 5.根据权利要求2所述的方法,其特征在于,基于预设前置处理策略对标注文本和语音识别文本进行针对文字表达方式的处理包括: 对标注文本和语音识别文本进行大写转小写处理、特殊数字书写方式转换处理、词形转换处理和单词切分处理中的至少一项。 6.根据权利要求2所述的方法,其特征在于,基于预设前置处理策略对标注文本和语音识别文本进行针对干扰字符的处理包括: 对标注文本和语音识别文本进行不发音字符滤除处理和/或语气词滤除处理。 7.根据权利要求1所述的方法,其特征在于,所述标注文本包括采用预设标注方式进行标注的文本,所述预设标注方式遵循保持语音原义的原则。 8.根据权利要求7所述的方法,其特征在于,所述原则体现于以下至少一个方面: 避免对重读文字进行纠错、避免对网络用语中的错别字进行纠错、避免对存在缩写的全称读法进行缩写处理、对错误发音进行纠错、按照音频读法对涉及数字的字词进行标注、以及按照音频发音对语气词进行标注。 9.根据权利要求7所述的方法,其特征在于,所述预设标注方式还包括以下至少一项:为预设类型词语添加第一预设符号标注、采用第二预设符号标注模糊字词、以及基于预设的变更规则变更缩写词书写方式。 10.根据权利要求1-9任一所述的方法,其特征在于,基于预设对比算法确定所述目标标注文本和所述目标语音识别文本的对比结果,包括: 基于最小编辑距离算法确定所述目标标注文本和所述目标语音识别文本对应的编辑路径,并将所述编辑路径作为对比结果; 相应的,所述根据所述对比结果评估所述预设语音识别方案的准确度信息,包括: 根据所述编辑路径确定所述预设语音识别方案的字错率或词错率。 11.一种语音识别评估装置,其特征在于,包括: 前置处理模块,用于基于预设前置处理策略对标注文本和语音识别文本进行处理,得到对应的目标标注文本和目标语音识别文本,其中,所述标注文本和所述语音识别文本对应相同的样本音频数据,所述语音识别文本包括利用预设语音识别方案对所述样本音频数据进行语音识别后输出的识别结果; 对比结果确定模块,用于基于预设对比算法确定所述目标标注文本和所述目标语音识别文本的对比结果; 准确度确定模块,用于根据所述对比结果评估所述预设语音识别方案的准确度信息。 12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-10任一项所述的方法。 13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-10任一项所述的方法。
相关文献
评论
法律状态详情>>
2020-09-18公开
2020-09-18公开
相关作者
相关机构