语音处理方法及装置、电子设备、计算机可读存储介质

引用

摘要：

本申请的实施例揭示了一种语音处理方法及装置。该方法包括：获取针对语音进行识别处理得到的声学参数和识别文本；根据所述声学参数提取所述语音的声学特征，并根据所述识别文本提取所述语音的文本特征；根据所述语音关联的得分点类型，将所述声学特征和所述文本特征输入至与所述得分点类型相匹配的评分预测模型中，得到所述评分预测模型根据所述声学特征、所述文本特征以及所述得分点类型输出的针对所述语音的评分值，不同的得分点类型所匹配的评分预测模型是不同的。本申请实施例的技术方案能够避免出现由于语音关联的得分点类型与评分预测模型不匹配而引起的评分误差，提升语音评分的准确性。

专利类型：发明专利

申请/专利号：CN202010630225.0

申请日期：2020-07-01

公开/公告号：CN111833853A

公开/公告日：2020-10-27

主分类号：G10L15/06(2013.01)

申请/专利权人:腾讯科技(深圳)有限公司

发明/设计人:林炳怀;王丽园

主申请人地址:518057 广东省深圳市南山区高新区科技中一路腾讯大厦35层

专利代理机构:深圳市隆天联鼎知识产权代理有限公司

代理人:叶虹

国别省市代码:广东;44

权利要求：

1.一种语音处理方法，其特征在于，包括：获取针对语音进行识别处理得到的声学参数和识别文本；根据所述声学参数提取所述语音的声学特征，并根据所述识别文本提取所述语音的文本特征；根据所述语音关联的得分点类型，将所述声学特征和所述文本特征输入至与所述得分点类型相匹配的评分预测模型中，得到所述评分预测模型根据所述声学特征、所述文本特征以及所述得分点类型输出的针对所述语音的评分值，不同的得分点类型所匹配的评分预测模型是不同的。 2.根据权利要求1所述的方法，其特征在于，根据所述识别文本提取所述语音的文本特征，包括：在所述识别文本中检测不流利的文本成分；去除所述识别文本中含有的所述不流利的文本成分，基于去除了所述不流利的文本成分的识别文本提取所述文本特征。 3.根据权利要求1或2所述的方法，其特征在于，在根据所述识别文本提取所述语音的文本特征之前，所述方法还包括：在所述识别文本中添加标点符号，以基于添加了所述标点符号的识别文本进行所述文本特征的提取。 4.根据权利要求1所述的方法，其特征在于，根据所述声学参数提取所述语音的声学特征，包括：根据所述声学参数确定所述语音中含有的各个音素的置信度；对所述各个音素进行组合得到所述语音中含有的各个音素集合，并基于所述各个音素的置信度确定所述各个音素集合的置信度，将所述各个因素的置信度以及所述各个因素集合的置信度作为所述语音的声学特征。 5.根据权利要求1所述的方法，其特征在于，根据所述声学参数提取所述语音的声学特征，包括：根据所述声学参数确定所述语音在发音过程中的时长参数；根据所述时长参数确定所述语音的发音流利度，并将所述发音流利度作为所述语音的声学特征。 6.根据权利要求5所述的方法，其特征在于，所述发音流利度包括所述语音的平均语速、发音段平均时长和发音段平均间隔时长；根据所述时长参数确定所述语音的发音流利度，包括：根据所述时长参数确定所述语音的发音总时长、所述语音中含有的各个发音段的发音时长、以及相邻两个发音段之间的间隔时长；根据所述发音总时长和所述语音中含有的音素总数确定所述平均语速，并根据所述各个发音段的发音时长确定所述发音段平均时长，以及根据所述相邻两个发音段之间的间隔时长确定所述发音段平均间隔时长。 7.根据权利要求1所述的方法，其特征在于，所述声学特征包括所述语音对应的发音韵律度；根据所述声学参数提取所述语音的声学特征，包括：将所述声学参数输入至韵律评估模型中，以获得所述韵律评估模型根据所述声学参数评估得到的所述语音对应的发音韵律度。 8.根据权利要求1所述的方法，其特征在于，根据所述识别文本提取所述语音的文本特征，包括：对所述识别文本和所述语音对应的标准文本分别进行关键词提取，获得所述识别文本对应的关键词，以及所述标准文本对应的关键词；将所述标准文本对应的关键词作为所述识别文本进行关键词提取的标准结果，计算所述识别文本对应的关键词评价指标，将得到的所述关键词评价指标作为所述语音的文本特征。 9.根据权利要求1所述的方法，其特征在于，根据所述识别文本提取所述语音的文本特征，包括：确定所述识别文本中含有的不流利的文本成分的数量；根据所述不流利的文本成分的数量与所述识别文本中含有的词语的总数之间的比值确定所述语音的文本特征。 10.根据权利要求1所述的方法，其特征在于，所述方法还包括：针对多个得分点类型对应的语音，获取各个语音对应的声学特征和文本特征，以及获取针对所述各个语音设定的评分值；将所述各个语音对应的声学特征和文本特征，以及针对所述各个语音设定的评分值输入与所述各个语音关联的得分点类型相匹配的评分预测模型中，以对与所述各个语音关联的得分点类型相匹配的评分预测模型进行训练。 11.根据权利要求1所述的方法，其特征在于，所述语音是口语考试中针对考试题目进行回答的语音，所述语音关联的得分点类型对应于所述考试题目的题型。 12.一种口语考试的评分方法，其特征在于，包括：在口语考试界面显示考试题目；当检测到触发了音频录制指令时，录制针对所述考试题目输入的语音；在所述口语考试界面中显示针对所述语音的评分值，所述评分值是与所述考试题目的题型相匹配的评分预测模型根据所述语音的声学特征和文本特征，以及所述考试题目的题型对所述语音进行评分得到的。 13.一种语音处理装置，其特征在于，包括：识别处理模块，用于获取针对语音进行识别处理得到的声学参数和识别文本；特征提取模块，用于根据所述声学参数提取所述语音的声学特征，并根据所述识别文本提取所述语音的文本特征；评分获取模块，用于根据所述语音关联的得分点类型，将所述声学特征和所述文本特征输入至与所述得分点类型相匹配的评分预测模型中，得到所述评分预测模型根据所述声学特征、所述文本特征以及所述得分点类型输出的针对所述语音的评分值，不同的得分点类型所匹配的评分预测模型是不同的。 14.一种电子设备，其特征在于，包括：存储器，存储有计算机可读指令；处理器，读取存储器存储的计算机可读指令，以执行权利要求1-12中的任一项所述的方法。 15.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1-12中的任一项所述的方法。

专利专题