端到端的智能语音朗读评测方法

引用

摘要：

本发明公开了端到端的智能语音朗读评测方法，包括：收集用于训练评测神经网络的朗读语音、目标发音、错误代码、说话人信息的数据处理流程；针对说话人特征，对评测神经网络进行辅助训练；根据待评测的目标发音与待评测发音，直接由神经网络端到端输出评测结果，从输入目标发音与待评测发音，到输出评测结果，整个流程可微分，可直接针对评测指标进行优化。本发明直接构建输入为语音和待评测文本、输出为反馈结果的端到端评测模式，可与方法中的各个模块联合训练使得整体效果更好，另外该方法构建的辅助任务能够更准确的提取评测相关特征，使得反馈的评测结果更为准确。

专利类型：发明专利

申请/专利号：CN202010627043.8

申请日期：2020-07-02

公开/公告号：CN111883176A

公开/公告日：2020-11-03

主分类号：G10L25/51(2013.01)

申请/专利权人:浙江大学绍兴微电子研究中心

发明/设计人:张展;王曰海

主申请人地址:312000 浙江省绍兴市越城区皋埠镇银桥路326号

专利代理机构:杭州君度专利代理事务所(特殊普通合伙)

代理人:徐锋

国别省市代码:浙江;33

权利要求：

1.端到端的智能语音朗读评测方法，其特征在于，包括：收集用于训练评测神经网络的朗读语音、目标发音、错误代码、说话人信息的数据处理流程；针对说话人特征，对评测神经网络进行辅助训练；根据待评测的目标发音与待评测发音，直接由神经网络端到端输出评测结果，从输入目标发音与待评测发音，到输出评测结果，整个流程可微分，可直接针对评测指标进行优化。 2.如权利要求1所述的端到端的智能语音朗读评测方法，其特征在于，所述收集数据处理流程要求被测试者根据目标发音的文本进行朗读，目标发音xtext由各个文本单位(例如第一个文本单位为第二个为…，等等)组成。假设文本输入长度为s，则同时，使用智能设备录制其朗读的语音，并记录该测试者相关的说话人特征信息，包括性别、母语、口语能力分数；专业老师对朗读的语音进行评测，标注出该段朗读语音实际的发音文本，以该实际发音文本根据对齐后真实发音正确的程度，其错误代码将被标记为对应的分数；该评测情况长度同样为s(例如第一个评测为第二个为…，等等)，即 3.如权利要求1所述的端到端的智能语音朗读评测方法，其特征在于，所述评测神经网络包括语音编码模块、文本语音联合编码模块及错误输出模块；语音编码模块作为该方法的声学模型，用于从音频中提取更高级的语言相关特征，输出编码后的语音特征yaudio至文本语音联合编码模块进行后续的处理。对于语音编码模块，额外增加针对说话人的辅助任务；若将语音编码模块前部的音频映射层和第一部分的多层非线性变化层组合表示为Eaudio，输入的语音特征为xaudio，则编码后的语音特征yaudio为: yaudio＝Eaudio(xaudio) 若将预测的说话人特征表示为将语音编码器后部的归一化层和第二部分的多层非线性变化层组合表示为Eaug，则：文本语音联合编码模块首先将离散的文本输入映射至连续的特征空间，然后根据映射后的文本特征，与语音编码模块输出的语音特征进行融合，融合后的特征将被送入错误输出模块进行判定。该模块的文本输入为目标发音xtext。文本语音联合编码模块首先将离散的文本输入通过文本映射层映射至连续的特征空间，然后根据映射后的文本特征，与语音编码模块输出的语音特征送入多层非线性融合层进行融合，得到了表征能力较强的联合特征。若将文本语音联合编码模块表示为Ejoint，融合后的联合特征yjoint为 yjoint＝Ejoint(xtext,yaudio) 该联合特征长度同样为s(例如第一个联合特征为第二个为…，等等)，即该特征将被送入错误输出模块进行判定；错误输出模块对融合后的语音、文本特征进行判定，判定该特征中的语音部分是否能够与文本部分相匹配，并将每个文本单位的匹配程度被映射为错误代码，输出给用户。该预测评测情况长度为s(例如第一个评测为第二个为…，等等)，即该预测的错误情况与真实的错误情况之间的差异将作为整个方法的损失函数用于反向传播并优化整个方法。 4.如权利要求3所述的端到端的智能语音朗读评测方法，其特征在于，评测神经网络的损失函数中，将真实说话人特征标记为则辅助任务的损失ls为: 其中loss表示所使用的损失函数，根据预测的特征所不同，可以为均方误差或交叉熵损失等等函数；预测的错误情况与真实的错误情况之间的交叉熵将作为评测损失函数，即该部分的损失函数lerr为训练过程中总的损失函数ltotal为上述辅助损失函数ls、评测损失函数lerr的加权，即 ltotal＝lerr+λls 其中λ为辅助任务的权重，用于反向传播并优化整个模型。

专利专题