用于语音识别和语种分类的混合模型的训练方法及系统

引用

摘要：

本发明实施例提供一种用于语音识别和语种分类的混合模型的训练方法。该方法包括：对带有文本标注、语种标注的混合训练音频数据进行特征提取和数据对齐，确定训练用的输入数据；将训练用的输入数据输入至N层中间层，基于语音识别层输出的语音识别结果和文本标注，进行语音识别训练，训练N层中间层和语音识别层的神经网络参数；在语音识别训练完成后，基于语种分类层输出的语种分类结果和语种标注，仅训练语种分类层的神经网络参数，完成语种分类训练。本发明实施例还提供一种用于语音识别和语种分类的混合模型的训练系统。本发明实施例将语音识别和语种分类进行合并，简化了系统结构，节省了训练的成本，提升了混合模型整体的系统性能。

专利类型：发明专利

申请/专利号：CN202010739233.9

申请日期：2020-07-28

公开/公告号：CN111833844A

公开/公告日：2020-10-27

主分类号：G10L15/00(2013.01)

申请/专利权人:苏州思必驰信息科技有限公司

发明/设计人:陆一帆;钱彦旻;朱森;陈梦姣

主申请人地址:215123 江苏省苏州市苏州工业园区新平街388号腾飞创新园14栋

专利代理机构:北京商专永信知识产权代理事务所(普通合伙)

代理人:黄谦%车江华

国别省市代码:江苏;32

权利要求：

1.一种用于语音识别和语种分类的混合模型的训练方法，其中所述混合模型为具有N层中间层的深度神经网络结构，并且第N层中间层分叉出语音识别层和语种分类层，所述语音识别层输出语音识别结果，所述语种分类层输出语种分类结果，所述训练方法包括：对带有文本标注、语种标注的混合训练音频数据进行特征提取和数据对齐，确定训练用的输入数据；将所述训练用的输入数据输入至所述N层中间层，基于所述语音识别层输出的语音识别结果和所述文本标注，进行语音识别训练，训练所述N层中间层和所述语音识别层的神经网络参数；在所述语音识别训练完成后，基于所述语种分类层输出的语种分类结果和所述语种标注，仅训练所述语种分类层的神经网络参数，完成所述语种分类训练。 2.根据权利要求1所述的方法，其中，所述对带有文本标注、语种标注的混合训练音频数据进行特征提取和数据对齐，确定训练用的输入数据包括：对带有文本标注、语种标注的混合训练音频进行特征提取，确定所述混合训练音频内每一帧m维的FBANK特征以及梅尔倒谱系数特征，其中，所述混合训练音频包括多语种的音频，所述语种包括普通话和方言；对所述混合训练音频以及所述每一帧m维的梅尔倒谱系数特征进行有监督训练，确定每一帧的数据对齐。 3.根据权利要求1所述的方法，其中，所述基于所述语种分类层输出的语种分类结果和所述语种标注，仅训练所述语种分类层的神经网络参数包括：基于交叉熵训练准则，利用极大似然估计对每一帧的数据对齐进行分类优化，使所述语种分类结果向所述语种标注更新。 4.根据权利要求1所述的方法，其中，所述对带有文本标注、语种标注的混合训练音频数据进行特征提取包括：使用帧长25ms、帧移10ms的窗对所述混合训练音频数据进行分帧，确定所述混合训练音频数据内每一帧m维的FBANK特征以及梅尔倒谱系数特征。 5.根据权利要求1所述的方法，其中，所述N层中间层的结构至少包括：深度神经网络、长短期记忆神经网络、前馈型序列记忆网络。 6.一种用于语音识别和语种分类的混合模型的训练系统，其中所述混合模型为具有N层中间层的深度神经网络结构，并且第N层中间层分叉出语音识别层和语种分类层，所述语音识别层输出语音识别结果，所述语种分类层输出语种分类结果，所述训练系统包括：输入数据确定程序模块，用于对带有文本标注、语种标注的混合训练音频数据进行特征提取和数据对齐，确定训练用的输入数据；输出程序模块，用于将所述训练用的输入数据输入至所述N层中间层，基于所述语音识别层输出的语音识别结果和所述文本标注，进行语音识别训练，训练所述N层中间层和所述语音识别层的神经网络参数；训练程序模块，用于在所述语音识别训练完成后，基于所述语种分类层输出的语种分类结果和所述语种标注，仅训练所述语种分类层的神经网络参数，完成所述语种分类训练。 7.根据权利要求6所述的系统，其中，所述输入数据确定程序模块用于：对带有文本标注、语种标注的混合训练音频进行特征提取，确定所述混合训练音频内每一帧m维的FBANK特征以及梅尔倒谱系数特征，其中，所述混合训练音频包括多语种的音频，所述语种包括普通话和方言；对所述混合训练音频以及所述每一帧m维的梅尔倒谱系数特征进行有监督训练，确定每一帧的数据对齐。 8.根据权利要求6所述的系统，其中，所述训练程序模块用于：基于交叉熵训练准则，利用极大似然估计对每一帧的数据对齐进行分类优化，使所述语种分类结果向所述语种标注更新。 9.根据权利要求6所述的系统，其中，所述输入数据确定程序模块用于：使用帧长25ms、帧移10ms的窗对所述混合训练音频数据进行分帧，确定所述混合训练音频数据内每一帧m维的FBANK特征以及梅尔倒谱系数特征。 10.根据权利要求6所述的系统，其中，所述N层中间层的结构至少包括：深度神经网络、长短期记忆神经网络、前馈型序列记忆网络。

专利专题