普通话和四川话的混合语音识别模型的训练方法及系统

引用

摘要：

本发明实施例提供一种普通话和四川话的混合语音识别模型的训练方法。该方法包括：确定混合训练音频数据的特征、基于音素的数据对齐和基于汉字的数据对齐，确定为训练用的输入数据；输入至N层公共中间层，第一任务层计算第一损失函数，第二任务层计算第二损失函数；基于第一损失函数训练N层的第一任务层，基于第二损失函数训练N层的第二任务层，基于训练后的第一神经网络参数以及训练后的第二神经网络参数进行多任务训练，训练N层公共中间层。本发明实施例还提供一种普通话和四川话的混合语音识别模型的训练系统。本发明实施例将音素和汉字作为多任务联合训练的任务，提高对普通话、四川话的识别性能，减少资源占用。

专利类型：发明专利

申请/专利号：CN202010737652.9

申请日期：2020-07-28

公开/公告号：CN111862942A

公开/公告日：2020-10-30

主分类号：G10L15/00(2013.01)

申请/专利权人:苏州思必驰信息科技有限公司

发明/设计人:陆一帆;钱彦旻;朱森

主申请人地址:215123 江苏省苏州市苏州工业园区新平街388号腾飞创新园14栋

专利代理机构:北京商专永信知识产权代理事务所(普通合伙)

代理人:黄谦%车江华

国别省市代码:江苏;32

权利要求：

1.一种普通话和四川话的混合语音识别模型的训练方法，其中，所述混合语音识别模型为具有N层公共中间层的深度神经网络结构，并且第N层公共中间层分叉出N层的第一任务层和N层的第二任务层，所述第一任务层计算基于音素的普通话和四川话的第一损失函数，所述第二任务层计算基于汉字的普通话和四川话的第二损失函数，所述训练方法包括：对带有文本标注的混合训练音频数据进行数据增强，确定数据增强后的混合训练音频数据的特征、基于音素的数据对齐和基于汉字的数据对齐，将所述特征、基于音素的数据对齐以及所述基于汉字的数据对齐确定为训练用的输入数据；将所述训练用的输入数据输入至所述N层公共中间层，通过所述第一任务层计算所述第一损失函数，通过所述第二任务层计算第二损失函数；基于所述第一损失函数仅训练所述N层的第一任务层的第一神经网络参数，基于所述第二损失函数仅训练所述N层的第二任务层的第二神经网络参数，基于训练后的第一神经网络参数以及训练后的第二神经网络参数进行多任务训练，共同训练所述N层公共中间层的神经网络参数，完成所述混合语音识别模型的训练。 2.根据权利要求1所述的方法，其中，所述对带有文本标注的混合训练音频数据进行数据增强包括：对所述混合训练音频数据进行加噪；和/或通过人工嘴播放所述混合训练音频数据，使用参数不同的收音设备采集所述人工嘴播放的混合训练音频数据；和/或对所述混合训练音频数据进行音频格式转换；和/或对所述混合训练音频数据按照预设的参数进行信号处理；和/或对所述混合训练音频数据高频随机抹零处理。 3.根据权利要求1所述的方法，其中，所述确定数据增强后的混合训练音频数据的特征、基于音素的数据对齐和基于汉字的数据对齐包括：对数据增强后的带有文本标注的混合训练音频数据进行特征提取，确定所述混合训练音频数据内每一帧m维的FBANK特征；通过高斯混合模型确定所述数据增强后的带有文本标注的混合训练音频数据内每一帧音素的数据对齐；将连接时序分类作为损失函数对所述混合训练音频数据的文本标注进行处理，确定所述混合训练音频数据的基于汉字的数据对齐。 4.根据权利要求3所述的方法，其中，所述对数据增强后的带有文本标注的混合训练音频数据进行特征提取，确定所述混合训练音频数据内每一帧m维的FBANK特征包括：使用帧长25ms、帧移10ms的窗对所述混合训练音频数据进行分帧，确定所述混合训练音频数据内每一帧m维的FBANK特征。 5.根据权利要求1所述的方法，其中，所述N层中间层的结构至少包括：深度神经网络、长短期记忆神经网络、前馈型序列记忆网络；所述方法还包括：按照预设的条件，从所述第一任务层、第二任务层选择一个任务层，输出普通话/四川话的识别结果。 6.一种普通话和四川话的混合语音识别模型的训练系统，其中，所述混合语音识别模型为具有N层公共中间层的深度神经网络结构，并且第N层公共中间层分叉出N层的第一任务层和N层的第二任务层，所述第一任务层计算基于音素的普通话和四川话的第一损失函数，所述第二任务层计算基于汉字的普通话和四川话的第二损失函数，所述训练系统用于：输入确定程序模块，用于对带有文本标注的混合训练音频数据进行数据增强，确定数据增强后的混合训练音频数据的特征、基于音素的数据对齐和基于汉字的数据对齐，将所述特征、基于音素的数据对齐以及所述基于汉字的数据对齐确定为训练用的输入数据；识别结果确定程序模块，用于将所述训练用的输入数据输入至所述N层公共中间层，通过所述第一任务层计算所述第一损失函数，通过所述第二任务层计算第二损失函数；训练程序模块，用于基于所述第一损失函数仅训练所述N层的第一任务层的第一神经网络参数，基于所述第二损失函数仅训练所述N层的第二任务层的第二神经网络参数，基于训练后的第一神经网络参数以及训练后的第二神经网络参数进行多任务训练，共同训练所述N层公共中间层的神经网络参数，完成所述混合语音识别模型的训练。 7.根据权利要求6所述的系统，其中，所述输入确定程序模块用于：对所述混合训练音频数据进行加噪；和/或通过人工嘴播放所述混合训练音频数据，使用参数不同的收音设备采集所述人工嘴播放的混合训练音频数据；和/或对所述混合训练音频数据进行音频格式转换；和/或对所述混合训练音频数据按照预设的参数进行信号处理；和/或对所述混合训练音频数据高频随机抹零处理。 8.根据权利要求6所述的系统，其中，所述输入确定程序模块用于：对数据增强后的带有文本标注的混合训练音频数据进行特征提取，确定所述混合训练音频数据内每一帧m维的FBANK特征；通过高斯混合模型确定所述数据增强后的带有文本标注的混合训练音频数据内每一帧音素的数据对齐；将连接时序分类作为损失函数对所述混合训练音频数据的文本标注进行处理，确定所述混合训练音频数据的基于汉字的数据对齐。 9.根据权利要求8所述的系统，其中，所述系统还用于：使用帧长25ms、帧移10ms的窗对所述混合训练音频数据进行分帧，确定所述混合训练音频数据内每一帧m维的FBANK特征。 10.根据权利要求6所述的系统，其中，所述N层中间层的结构至少包括：深度神经网络、长短期记忆神经网络、前馈型序列记忆网络；所述系统还用于：按照预设的条件，从所述第一任务层、第二任务层选择一个任务层，输出普通话/四川话的识别结果。

专利专题