一种临高话和普通话混合语音识别模型训练方法及系统

引用

摘要：

本发明涉及语音识别技术领域，公开了一种临高话和普通话混合语音识别模型训练方法，基于Conformer模型构建的端到端混合语音识别模型，所述方法包括：输入包含临高话和普通话的混合语音信号，并提取混合语音信号的声学特征序列；将特征序列输入到预设编码器，进行降采样以减少特征冗余信息，再经编码器编码生成隐藏向量；解码器对向量进行解码，在解码图中，依据转移弧上的权重逐帧进行搜索，计算每条路径中的权重得分；选择得分最高的路径作为最优路径，不断更新状态信息；输出最优路径对应的标签序列作为最终识别结果。本发明增强了模型提取局部细微特征的能力，提升了模型的语言建模能力，提高了模型识别的准确率。

专利类型：发明专利

申请/专利号：CN202311428942.5

申请日期：2023-10-31

公开/公告号：CN117373438A

公开/公告日：2024-01-09

主分类号：G10L15/06(2013.01)

申请/专利权人:海南大学%海南经贸职业技术学院

发明/设计人:王忠;曹春杰;张良峰;王艺臻;刘剑三;符龙生;靳向峰;杨博

主申请人地址:570100 海南省海口市人民大道58号;

专利代理机构:重庆壹手知专利代理事务所(普通合伙)

代理人:罗燕

国别省市代码:海南;46

权利要求：

1.一种临高话和普通话混合语音识别模型训练方法，其特征在于，基于Conformer模型构建的端到端混合语音识别模型，所述端到端混合语音识别模型为编码器一解码器结构，所述编码器由预设编码器构成，预设编码器包含多个相同的Conformer模块；所述解码器采用由CTC解码器和N-gram语言模型所构成的CTC WFST search解码器，N-gram语言模型表示为加权有限状态转换器的形式；所述端到端混合语音识别模型的训练方法包括：输入包含临高话和普通话的混合语音信号，并提取所述混合语音信号的声学特征序列S；将所述特征序列S输入到预设编码器，对所述特征序列S进行降采样以减少特征冗余信息，再经编码器编码生成隐藏向量0；所述CTC WFST search解码器对向量0进行解码，用CTC Prefix Beam Search算法在解码图中，依据转移弧上的权重逐帧进行搜索，计算每条路径中的权重得分；选择得分最高的路径作为最优路径，不断更新状态信息；输出最优路径对应的标签序列作为最终识别结果Y。 2.根据权利要求1所述的临高话和普通话混合语音识别模型训练方法，其特征在于，所述预设编码器包括语音增强模块、卷积降采样模块、线性层和Conformer模块；所述Conformer模块包括前馈神经网络模块，多头注意力模块以及卷积模块，卷积模块和多头注意力模块被两个半步前馈神经网络模块夹在中间，在前馈神经网络模块、卷积模块和多头注意力模块上均使用了残差结构；在所述预设编码器中，用xn表示第n个Conformer模块的输入，yn表示其对应的输出，Conformer模块的计算过程为： xMHA＝xF1+MHA(xF1) xConv＝xMHA+Conv(xMHA) 其中，FFN表示前馈神经网络模块的计算函数，MHA表示多头注意力模块的计算函数，Conv表示卷积模块计算函数，LayerNorm表示归一化函数。 3.根据权利要求2所述的临高话和普通话混合语音识别模型训练方法，其特征在于，所述卷积模块由Swish激活、GLU激活层、Pointwise卷积、Depthwise卷积、Batch Norm和归一化层组成；GLU激活函数决定哪些信息可以被传送到下个模块，其公式为：其中，X表示输入，W和V分别代表不同的卷积核，b和c分别作为偏移量；归一化层对信息进行整合，重新定位并优化网络参数，通过动态调整输入向量的长短避免输入分布差异，线性层将神经网络中每层的神经元与上一层神经元相连，实现线性变换操作。 4.根据权利要求3所述的临高话和普通话混合语音识别模型训练方法，其特征在于，所述前馈神经网络模块由两个内部线性层组成，并采用Swish激活函数进行线性变换，同时采用Dropout减少过拟合问题；所述前馈神经网络用于更新注意力层输出向量的每个状态信息，其公式为： FFN(x)＝max(0，xW1+b1)W2+b2 其中，W表示权重，b表示偏差，x表示输入。 5.根据权利要求4所述的临高话和普通话混合语音识别模型训练方法，其特征在于，所述CTC WFST search解码器在解码时包含构建解码图和解码两个操作；所述解码图的构建将T、L和G每个部分的信息组合在一起，其中建模单元用T表示，词典用L表示，语言模型用G表示；用中文汉字作为端到端混合语音识别模型中的建模单元T，由词语或者句子拆分成建模单元组合成词典L，将N-gram语言模型转换成WFST的表示形式构成G，其中WFST为普遍应用于语音识别领域的解码形式，可以将N-gram语言模型表示成图的形式。 6.根据权利要求5所述的临高话和普通话混合语音识别模型训练方法，其特征在于，还包括多头注意力解码器，所述预设编码器的输出与CTC解码器和多头注意力解码器相连，所述多头注意力解码器由多个Transformer结构的解码器组成，其中包含多头注意力层和屏蔽多头注意力层。 7.根据权利要求5所述的临高话和普通话混合语音识别模型训练方法，其特征在于，所述多头注意力解码器按照自回归的方式进行解码，上一时刻解码器输出的标签经过输出嵌入层和位置编码后输入到屏蔽多头注意力层，并生成对应的Q、K和V的值；多头注意力层的输入一部分为编码器的输出K向量和V向量，另一部分为屏蔽多头注意力层的输出Q向量；最后经过Softmax层输出完整的识别结果；多头注意力解码器中的位置编码采用不同频率的正弦和余弦函数，其公式为：其中，pos是指单词在这个句子中的位置，i表示嵌入词向量的维度，2i表示偶数维度，2i+1表示奇数维度，位置编码的每一维对应一个正弦信号，对应的波长以几何级数的形式从2π增长到10000·2π。 8.一种临高话和普通话混合语音识别模型训练系统，其特征在于，基于Conformer模型构建的端到端混合语音识别模型，所述端到端混合语音识别模型为编码器-解码器结构，所述编码器由预设编码器构成，预设编码器包含多个相同的Conformer模块；所述解码器采用由CTC解码器和N-gram语言模型所构成的CTC WFST search解码器，N-gram语言模型表示为加权有限状态转换器的形式；所述端到端混合语音识别模型的训练系统包括：输入模块，用于输入包含临高话和普通话的混合语音信号，并提取所述混合语音信号的声学特征序列S；编码模块，用于将所述特征序列S输入到预设编码器，对所述特征序列S进行降采样以减少特征冗余信息，再经编码器编码生成隐藏向量O；解码模块，用于所述CTC WFST search解码器对向量O进行解码，用CTC Prefix BeamSearch算法在解码图中，依据转移弧上的权重逐帧进行搜索，计算每条路径中的权重得分；选择模块，用于选择得分最高的路径作为最优路径，不断更新状态信息；输出模块，用于输出最优路径对应的标签序列作为最终识别结果Y。 9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。 10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

专利专题