一种中文口音识别方法、装置、设备及介质

引用

摘要：

本发明提供了一种中文口音识别方法、装置、设备及介质，涉及口音识别技术领域，能够识别非母语人群的口音。首先，语音信号输入Wave2vec2.0预训练模型抽取编码器的深层隐藏层进行拼接，得到层次化聚合向量。然后，将层次化聚合向量输入到注意力统计池化网络，根据注意力权重计算统计特征均值和统计特征方差，两者拼接得到紧凑的聚合口音特征。最后，聚合口音特征输入到LSTM网络中学习语音序列的长期依赖关系，获得口音依赖特征，将口音依赖特征输入全连接分类器实现口音分类。利用语音预训练模型提取更高层次的语义信息，并利用注意力统计池化捕捉语音特征在时间上的变化和分布，有效地提取口音特征并增强口音特征的判别性。

专利类型：发明专利

申请/专利号：CN202311434355.7

申请日期：2023-10-31

公开/公告号：CN117475999A

公开/公告日：2024-01-30

主分类号：G10L15/16(2006.01)

申请/专利权人:华侨大学

发明/设计人:王华珍;陈建国;周浩;贺阳;戴朝;缑锦

主申请人地址:362000 福建省泉州市城华北路269号

专利代理机构:厦门智慧呈睿知识产权代理事务所(普通合伙)

代理人:郑晋升

国别省市代码:福建;35

权利要求：

1.一种中文口音识别方法,其特征在于，包括：获取待识别的语音信号，将所述语音信号输入至Wave2vec2.0预训练模型中，并抽取所述Wave2vec2.0预训练模型中编码器模块的深层隐藏层对所述语音信号进行拼接处理，生成层次化聚合向量；将所述层次化聚合向量输入至注意力统计池化网络中，根据注意力权重对所述层次化聚合向量进行计算，生成统计特征均值和统计特征方差，并将所述统计特征均值和所述统计特征方差进行拼接处理，生成紧凑的聚合口音特征；调用LSTM网络对所述聚合口音特征进行语音序列的长期依赖关系的学习处理，获得口音依赖特征，并将所述口音依赖特征输入全连接分类器中进行分类处理，生成口音分类结果。 2.根据权利要求1所述的一种中文口音识别方法，其特征在于，获取待识别的语音信号，将所述语音信号输入至Wave2vec2.0预训练模型中，并抽取所述Wave2vec2.0预训练模型中编码器模块的深层隐藏层对所述语音信号进行拼接处理，生成层次化聚合向量，具体为：获取待识别的语音信号x，将所述语音信号x输入至Wave2vec2.0预训练模型中，其中，所述Wave2vec2.0预训练模型包括CNNs特征提取模块、transformer编码器模块、量化模块和对比损失模块；抽取所述transformer编码器模块中所有编码层的隐藏状态，生成隐藏层向量列表，公式为： h1,h2,…,hl,…hL＝wav2vec2.0Transformer(x) 其中，hl为所述transformer模块第l层隐藏向量，L表示总层数；对所述隐藏层向量列表中的每个元素进行使用层归一化处理，生成归一化隐藏状态列表，公式为：其中，是序列向量，其序列长度等于所述语音信号x的语音帧数量；融合不同层的所述归一化隐藏状态列表中的归一化隐藏状态向量生成层次化聚合特征向量/>计算公式为：其中，S为常数，S∈{1,2,…,L}。 3.根据权利要求2所述的一种中文口音识别方法，其特征在于，将所述层次化聚合向量输入至注意力统计池化网络中，根据注意力权重对所述层次化聚合向量进行计算，生成统计特征均值和统计特征方差，并将所述统计特征均值和所述统计特征方差进行拼接处理，生成紧凑的聚合口音特征，具体为：调用注意力统计池化层将所述层次化聚合向量聚合成一个固定维度的话语级别的特征向量，生成口音聚合向量；对所述层次化聚合特征向量进行自注意力变换处理，得到所述语音信号x每个帧的注意力权重α，注意力权重α通过全连接层和softmax函数计算，计算公式为：其中，是第t帧的特征向量,Wα和bα是全连接层的参数,at是第t帧的注意力权重,T是所述语音信号x的帧数量；利用所述注意力权重α对所述语音信号x序列的所述层次化聚合特征向量进行加权平均和加权标准差计算处理，生成两个话语级别的特征向量，得到相对应的统计特征均值m和方差s，计算公式为：其中，T是所述语音信号x的帧数量，是第t帧的层次化聚合特征向量；将统计特征均值m和方差s进行拼接处理，生成聚合口音嵌入c，计算公式为：c＝Concat(m，s)。 4.根据权利要求3所述的一种中文口音识别方法，其特征在于，调用LSTM网络对所述聚合口音特征进行语音序列的长期依赖关系的学习处理，获得口音依赖特征，并将所述口音依赖特征输入全连接分类器中进行分类处理，生成口音分类结果，具体为：将所述聚合口音嵌入c传入口音分类网络中进行预处理，其中，所述口音分类网络由一个LSTM层和一个全连接层ffc组成，LSTM层用于学习所述聚合口音嵌入c的时序依赖关系，其输出是时序特征向量fLSTM，全连接层ffc用于实现类别分类，其输出为K个口音类别的对数得分向量sc,公式为： sc＝ffc(fLSTM)＝wfLSTM+b 其中，w和b是全连接层的参数；计算Center-loss损失函数LC，公式为：其中，B是批量更新的batch样本数，fi是第i个语音信号x的时序特征向量，Cyi是第i个语音信号x所属类别的中心向量；计算交叉熵损失函数LS，公式为：其中，tij是第i个样本对应第j个类别的真实标签，如果第j个类别是真实类别，则tij为1，否则为0，yij为第i个语音信号x对应第j个类别的预测概率；计算总损失函数L，公式为： L＝LC+λLs 其中，λ是一个平衡因子，用于控制两个损失函数之间的权重；使用梯度下降法来优化总损失函数，直至总损失函数L至预设的阈值为止，从而生成口音分类结果。 5.一种中文口音识别装置，其特征在于，包括：层次化聚合向量生成单元，用于获取待识别的语音信号，将所述语音信号输入至Wave2vec2.0预训练模型中，并抽取所述Wave2vec2.0预训练模型中编码器模块的深层隐藏层对所述语音信号进行拼接处理，生成层次化聚合向量；聚合口音特征生成单元，用于将所述层次化聚合向量输入至注意力统计池化网络中，根据注意力权重对所述层次化聚合向量进行计算，生成统计特征均值和统计特征方差，并将所述统计特征均值和所述统计特征方差进行拼接处理，生成紧凑的聚合口音特征；口音分类结果生成单元，用于调用LSTM网络对所述聚合口音特征进行语音序列的长期依赖关系的学习处理，获得口音依赖特征，并将所述口音依赖特征输入全连接分类器中进行分类处理，生成口音分类结果。 6.根据权利要求5所述的一种中文口音识别方法，其特征在于，所述层次化聚合向量生成单元具体用于：获取待识别的语音信号x，将所述语音信号x输入至Wave2vec2.0预训练模型中，其中，所述Wave2vec2.0预训练模型包括CNNs特征提取模块、transformer编码器模块、量化模块和对比损失模块；抽取所述transformer编码器模块中所有编码层的隐藏状态，生成隐藏层向量列表，公式为： h1,h2,…,hl,…hL＝wav2vec2.0Transformer(x) 其中，hl为所述transformer模块第l层隐藏向量，L表示总层数；对所述隐藏层向量列表中的每个元素进行使用层归一化处理，生成归一化隐藏状态列表，公式为：其中，是序列向量，其序列长度等于所述语音信号x的语音帧数量；融合不同层的所述归一化隐藏状态列表中的归一化隐藏状态向量生成层次化聚合特征向量/>计算公式为：其中，S为常数，S∈{1,2,…,L}。 7.根据权利要求5所述的一种中文口音识别方法，其特征在于，所述聚合口音特征生成单元具体用于：调用注意力统计池化层将所述层次化聚合向量聚合成一个固定维度的话语级别的特征向量，生成口音聚合向量；对所述层次化聚合特征向量进行自注意力变换处理，得到所述语音信号x每个帧的注意力权重α，注意力权重α通过全连接层和softmax函数计算，计算公式为：其中，是第t帧的特征向量,Wα和bα是全连接层的参数,at是第t帧的注意力权重,T是所述语音信号x的帧数量；利用所述注意力权重α对所述语音信号x序列的所述层次化聚合特征向量进行加权平均和加权标准差计算处理，生成两个话语级别的特征向量，得到相对应的统计特征均值m和方差s，计算公式为：其中，T是所述语音信号x的帧数量，是第t帧的层次化聚合特征向量；将统计特征均值m和方差s进行拼接处理，生成聚合口音嵌入c，计算公式为：c＝Concat(m，s)。 8.根据权利要求5所述的一种中文口音识别方法，其特征在于，所述口音分类结果生成单元具体用于：将所述聚合口音嵌入c传入口音分类网络中进行预处理，其中，所述口音分类网络由一个LSTM层和一个全连接层ffc组成，LSTM层用于学习所述聚合口音嵌入c的时序依赖关系，其输出是时序特征向量fLSTM，全连接层ffc用于实现类别分类，其输出为K个口音类别的对数得分向量sc,公式为： sc＝ffc(fLSTM)＝wfLSTM+b 其中，w和b是全连接层的参数；计算Center-loss损失函数LC，公式为：其中，B是批量更新的batch样本数，fi是第i个语音信号x的时序特征向量，是第i个语音信号x所属类别的中心向量；计算交叉熵损失函数LS，公式为：其中，tij是第i个样本对应第j个类别的真实标签，如果第j个类别是真实类别，则tij为1，否则为0，yij为第i个语音信号x对应第j个类别的预测概率；计算总损失函数L，公式为： L＝LC+λLs 其中，λ是一个平衡因子，用于控制两个损失函数之间的权重；使用梯度下降法来优化总损失函数，直至总损失函数L至预设的阈值为止，从而生成口音分类结果。 9.一种中文口音识别设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4任意一项所述的一种中文口音识别方法。 10.一种可读存储介质，其特征在于，存储有计算机程序，所述计算机程序能够被该存储介质所在设备的处理器执行，以实现如权利要求1至4任意一项所述的一种中文口音识别方法。

专利专题