口音语音识别方法、装置、设备及存储介质

引用

摘要：

本发明涉及人工智能领域，公开了一种口音语音识别方法、装置、设备及存储介质。该方法包括：获取多种口音语音样本，并分别对所述各口音语音样本进行口音标注和音素标注，对应得到多种口音标签和音素状态序列；分别提取所述各口音语音样本对应的第一声学特征；将所述第一声学特征、所述口音标签和所述音素状态序列输入预置训练模型进行训练，得到口音语音识别模型；获取待识别的口音语音，并提取所述口音语音的第二声学特征；将所述第二声学特征输入所述口音语音识别模型进行识别，输出所述口音语音对应的口音类别和音素状态序列。本发明通过引入门机制和口音识别分支，实现了多种口音语音的准确识别。

专利类型：发明专利

申请/专利号：CN202011635764.X

申请日期：2020-12-31

公开/公告号：CN112863485A

公开/公告日：2021-05-28

主分类号：G10L15/00(2013.01)

申请/专利权人:平安科技(深圳)有限公司

发明/设计人:周亚云;马骏;王少军

主申请人地址:518033 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼

专利代理机构:北京市京大律师事务所

代理人:姚维

国别省市代码:广东;44

权利要求：

1.一种口音语音识别方法，其特征在于，所述口音语音识别方法包括：获取多种口音语音样本，并分别对所述各口音语音样本进行口音标注和音素标注，对应得到多种口音标签和音素状态序列；分别提取所述各口音语音样本对应的第一声学特征；将所述第一声学特征、所述口音标签和所述音素状态序列输入预置训练模型进行训练，得到口音语音识别模型；获取待识别的口音语音，并提取所述口音语音的第二声学特征；将所述第二声学特征输入所述口音语音识别模型进行识别，输出所述口音语音对应的口音类别和音素状态序列。 2.根据权利要求1所述的口音语音识别方法，其特征在于，所述训练模型包括：Baseline模型和Xvector模型，所述Baseline模型包括第一TDNN网络、门机制层、第二TDNN网络和Softmax层，所述将所述第一声学特征、所述口音标签和所述音素状态序列输入预置训练模型进行训练，得到口音语音识别模型包括：将所述第一声学特征输入所述第一TDNN网络进行声学信息提取，得到第一有效信息；将所述第一有效信息输入所述Xvector模型进行口音类别识别，得到所述口音语音样本对应的口音类别；将所述第一有效信息和所述第一口音类别输入所述门机制层进行口音信息融合，得到第一口音融合信息；将所述第一口音融合信息输入所述第二TDNN网络进行口音信息调整，得到第一口音调整信息；将所述第一口音调整信息输入所述Baseline模型中的Softmax层进行特征运算，输出所述口音语音样本对应的音素状态序列；根据所述口音标签和所述音素状态序列，调用预置损失函数，计算所述口音语音样本对应的口音类别和音素状态序列的误差值；根据所述误差值，对所述Baseline模型和所述Xvector模型进行参数调优，直至所述Baseline模型和所述Xvector模型收敛，得到口音语音识别模型。 3.根据权利要求2所述的口音语音识别方法，其特征在于，所述Xvector模型包括第三TDNN网络、Statistics pooling层、第四TDNN网络和Softmax层，所述将所述第一有效信息输入所述Xvector模型进行类别识别，得到所述口音语音样本对应的口音类别包括：将所述第一有效信息输入所述第三TDNN网络进行声学特征分割，得到第一帧级特征信息；将所述第一帧级特征信息输入所述Statistics pooling层进行均值方差计算，得到第一平均特征信息；将所述第一平均特征信息输入所述第四TDNN网络进行声学特征信息提取，得到第一平均有效信息；将所述第一平均有效信息输入所述Xvector模型中的Softmax层进行口音分类概率运算，得到所述口音语音样本对应的口音类别。 4.根据权利要求1所述的口音语音识别方法，其特征在于，所述分别提取所述各口音语音样本对应的第一声学特征包括：分别对所述各口音语音样本进行分帧，得到多个语音帧；对所述各语音帧进行预增强和加窗，得到第一声学特征。 5.根据权利要求3所述的口音语音识别方法，其特征在于，所述将所述第二声学特征输入所述口音语音识别模型进行识别，输出所述口音语音对应的口音类别和音素状态序列包括：将所述第二声学特征输入所述第一TDNN网络进行声学信息提取，得到第二有效信息；将所述第二有效信息输入所述Xvector模型进行类别识别，输出所述口音语音对应的口音类别；将所述第二有效信息和所述口音类别输入所述门机制层进行口音信息融合，得到第二口音融合信息；将所述第二口音融合信息输入所述第二TDNN网络进行口音信息调整，得到第二口音调整信息；将所述第二口音调整信息输入所述Baseline模型中的Softmax层进行特征运算，输出所述口音语音对应的音素状态序列。 6.根据权利要求5所述的口音语音识别方法，其特征在于，所述将所述第二有效信息输入所述Xvector模型进行类别识别，输出所述口音语音对应的口音类别包括：将所述第二有效信息输入所述第三TDNN网络进行声学特征分割，得到第二帧级特征信息；将所述第二帧级特征信息输入所述Statistics pooling层进行均值方差计算，得到第二平均特征信息；将所述第二平均特征信息输入所述第四TDNN网络进行声学特征信息提取，得到第二平均有效信息；将所述第二平均有效信息输入所述Xvector模型中的Softmax层进行口音概率运算，输出所述口音语音对应的口音类别。 7.根据权利要求1-6中任一项所述的口音语音识别方法，其特征在于，所述获取多种口音语音样本，并分别对所述各口音语音样本进行口音标注和音素标注，对应得到多种口音标签和音素状态序列包括：获取多种口音语音样本，并将所述各口音语音样本转换为文本；分别对所述各口音语音样本进行口音类别标注，得到多种口音标签，以及分别对所述文本进行正则拼音转写并标注分词信息，得到音素状态序列。 8.一种口音语音识别装置，其特征在于，所述口音语音识别装置包括：样本获取模块，用于获取多种口音语音样本，并分别对所述各口音语音样本进行口音标注和音素标注，对应得到多种口音标签和音素状态序列；特征提取模块，用于分别提取所述各口音语音样本对应的第一声学特征；模型训练模块，用于将所述第一声学特征、所述口音标签和所述音素状态序列输入预置训练模型进行训练，得到口音语音识别模型；口音语音预处理模块，用于获取待识别的口音语音，并提取所述口音语音的第二声学特征；口音语音识别模块，用于将所述第二声学特征输入所述口音语音识别模型进行识别，输出所述口音语音对应的口音类别和音素状态序列。 9.一种口音语音识别设备，其特征在于，所述口音语音识别设备包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述口音语音识别设备执行如权利要求1-7中任一项所述的口音语音识别方法。 10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述的口音语音识别方法。

专利专题