一种口语流利度自动评估方法以及装置

引用

摘要：

本发明公开了一种口语流利度自动评估方法以及装置，所述评估方法包括如下步骤：将语音转化为包含时间信息的口语识别文本；去除口语识别文本中的非顺滑文本后留下顺滑文本；给顺滑文本增加标点后获得带标点文本；从口语识别文本、非顺滑文本和带标点文本中提取流利度打分需要的流利度特征；结合提取的流利度特征构建回归模型对语音进行流利度打分，本发明在不同口语题型中对口语识别文本进行不同的非顺滑检测和标点检测，从口语识别文本、非顺滑文本、带标点文本中提取流利度的相关特征，对不同口语题型流利度特征提取进行区分，解决口语流利度标准量表差异大、不同题型特征区分性小等问题，使得最后的口语流利度的评估准确性高。

专利类型：发明专利

申请/专利号：CN202410534815.1

申请日期：2024-04-29

公开/公告号：CN118335086A

公开/公告日：2024-07-11

主分类号：G10L15/26(2006.01)

申请/专利权人:苏州驰声信息科技有限公司

发明/设计人:王维娜;方敏;彭书勇;葛海柱;孙暐

主申请人地址:215000 江苏省苏州市中国(江苏)自由贸易试验区苏州片区苏州工业园区金鸡湖大道88号人工智能产业园C1-801

专利代理机构:苏州铭浩知识产权代理事务所(普通合伙)

代理人:朱斌兵

国别省市代码:江苏;32

权利要求：

1.一种口语流利度自动评估方法，其特征在于，包括如下步骤：将语音转化为包含时间信息的口语识别文本；去除口语识别文本中的非顺滑文本后留下顺滑文本；给顺滑文本增加标点后获得带标点文本；从口语识别文本、非顺滑文本和带标点文本中提取流利度打分需要的流利度特征；结合提取的流利度特征构建回归模型对语音进行流利度打分。 2.如权利要求1所述的口语流利度自动评估方法，其特征在于：在开放题型和半开放题型中用自由解码网络和强制对齐操作将语音转化为口语识别文本；在封闭题型中用参考文本解码网络进行解码后将语音转化为口语识别文本。 3.如权利要求1所述的口语流利度自动评估方法，其特征在于：在开放型口语题和半开放题口语题中，去除口语识别文本中的非顺滑文本方式如下：利用大规模无标注数据通过无监督预训练得到一个通用模型；通过补充的增强非顺滑数据来训练非顺滑检测模型；利用训练后的非顺滑检测模型预测口语识别文本中的非顺滑位置，最后得到顺滑文本。 4.如权利要求3所述的口语流利度自动评估方法，其特征在于：所述非顺滑数据的增强技术主要包括：对字符简单的重复、相似属性字符的纠正、部分发音字符纠正、语气词插入、对原始文本进行不同操作模拟识别误差的口语文本或通过prompt+大预训练模型方式进行数据生成。 5.如权利要求1所述的口语流利度自动评估方法，其特征在于，在封闭型口语题中，口语识别文本中的非顺滑部分的获取方式如下：通过已训练好的声学模型和特定的参考文本解码网络对音频进行解码后获得解码文本，将解码文本和给定的参考文本进行文本内容对齐，获取解码文本中每个字符的标记，从而得到口语识别文本中非顺滑字符位置信息。 6.如权利要求1所述的口语流利度自动评估方法，其特征在于，在开放型和半开放题口语题中，给顺滑文本增加标点后获得带标点文本的方式如下所述：利用大规模无标注语料通过无监督预训练得到一个通用模型，然后根据原始标点标注数据和扩充的非顺滑标点标注数据进行有监督的微调得到标点检测模型，利用标点检测模型给顺滑的口语识别文本增加标点，最后通过标点检测得到带标点的文本。 7.如权利要求6所述的口语流利度自动评估方法，其特征在于，在封闭型口语题中，给顺滑文本增加标点后获得带标点文本的方式如下所述：通过已训练好的声学模型和特定的参考文本解码网络对音频进行解码后得到解码文本，将解码文本和给定参考文本进行文本内容对齐后进行标点检测，最后得到带标点文本。 8.如权利要求1所述的口语流利度自动评估方法，其特征在于，从口语识别文本、非顺滑文本和带标点文本中提取流利度打分需要的流利度特征如下所述：从口语识别文本中得到音素和单词的个数、发音时长特征，语音停顿的位置、次数、时长特征；从非顺滑文本得到口语识别文本中的非顺滑和顺滑文本位置，结合解码信息得到非顺滑的次数、文本长度、发音时长特征；从带标点文本中得到顺滑口语识别文本的标点位置，结合解码信息得到顺滑文本中句子的个数、句间停顿时长、句内停顿时长特征。 9.如权利要求1所述的口语流利度自动评估方法，其特征在于：流利度打分模型公式如下：公式(1)中wordflui表示第i个单词的流利度打分；numflu表示单词总数，scale1表示不流利因素在个数上的影响因子，scale2表示不流利因素在时间上的影响因子；其中，不流利因素包括不合理停顿、重复、纠正。 10.一种口语流利度自动评估装置，其特征在于，包括：自动语音识别模块，用以将语音转化为包含时间信息的口语识别文本；非顺滑检测模块，用以去除口语识别文本中的非顺滑文本后留下顺滑文本；标点预测模块，用以给顺滑文本增加标点后获得带标点文本；特征提取模块，用以从口语识别文本、非顺滑文本和带标点文本中提取流利度打分需要的流利度特征；流利度评分模块，用以结合提取的流利度特征构建回归模型对语音进行流利度打分。

专利专题