支持多语言混合的语音识别方法、装置、设备及存储介质

引用

摘要：

本发明涉及人工智能，提供一种支持多语言混合的语音识别方法，包括：获取训练数据的语音特征；通过至少两个平行网络获取与所述语音特征分别对应的高维特征；对所述平行网络输出的高维特征进行特征拼接，并获取与所述训练数据对应的拼接特征；基于所述拼接特征训练神经网络模型，直至所述神经网络模型收敛至预设范围内，形成语音识别模型；通过所述语音识别模型对待识别的多语言混合信号进行语音识别。本发明可以提高多语言混合语音的识别精度。

专利类型：发明专利

申请/专利号：CN202110481677.1

申请日期：2021-04-30

公开/公告号：CN113192487A

公开/公告日：2021-07-30

主分类号：G10L15/00(2013.01)

申请/专利权人:平安科技(深圳)有限公司

发明/设计人:鄢楷强;魏韬;马骏;王少军

主申请人地址:518033 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼

专利代理机构:北京鸿元知识产权代理有限公司

代理人:王迎%袁文婷

国别省市代码:广东;44

权利要求：

1.一种支持多语言混合的语音识别方法，其特征在于，所述方法包括：获取训练数据的语音特征；通过至少两个平行网络获取与所述语音特征分别对应的高维特征；对所述平行网络输出的高维特征进行特征拼接，并获取与所述训练数据对应的拼接特征；基于所述拼接特征训练神经网络模型，直至所述神经网络模型收敛至预设范围内，形成语音识别模型；通过所述语音识别模型对待识别的多语言混合信号进行语音识别。 2.如权利要求1所述的支持多语言混合的语音识别方法，其特征在于，所述获取训练数据的语音特征的步骤包括：对所述训练数据进行频谱分析，获取与所述训练数据对应的语谱图；利用预设卷积神经网络对所述语谱图进行特征提取，获取与所述训练数据对应的所述语音特征。 3.如权利要求1所述的支持多语言混合的语音识别方法，其特征在于，所述获取训练数据的语音特征的步骤包括：预先训练语音特征提取模型；将所述训练数据输入所述语音特征提取模型，通过所述语音特征提取模型对所述训练数据进行编码，以获取所述训练数据的隐层特征；对所述隐层特征进行非线性空间映射，获取与所述训练数据对应的所述语音特征。 4.如权利要求3所述的支持多语言混合的语音识别方法，其特征在于，所述训练数据包括有标注的语音信号数据以及无标注的语音信号数据；所述有标注的语音信号数据采用数据集或语料库中的标注数据，或者人工、标注模型完成标注的标注数据。 5.如权利要求1所述的支持多语言混合的语音识别方法，其特征在于，所述通过至少两个平行网络获取与所述语音特征分别对应的高维特征的步骤包括：基于预设的单一语种的语料一，获取与所述语料一对应的语音特征一，基于所述语音特征一训练所述平行网络中的一个网络；同时，基于预设的另一语种的语料二，获取与所述语料二对应的语音特征二，基于所述语音特征二训练所述平行网络中的另一网络，循环执行上述步骤，直至所有平行网络训练完成；基于训练完成的平行网络，获取与所述训练数据的语音特征分别对应的高维特征。 6.如权利要求1所述的支持多语言混合的语音识别方法，其特征在于，所述对所述平行网络输出的高维特征进行特征拼接的步骤包括：对各高维特征进行加和平拼接和/或串联拼接；并且，所述各高维特征在所述拼接特征中的占比可调。 7.如权利要求1所述的支持多语言混合的语音识别方法，其特征在于，所述通过所述语音识别模型对待识别的多语言混合信号进行语音识别的识别结果包括：所述待识别的多语言混合信号中不同语种的发音单元进行合并，且所述各不同语种之间相互独立；或者，所述待识别的多语言混合信号中不同语种且相似度符合预设要求的发音单元重新映射到共同的目标发音单元，形成不同语种的部分独立和部分融合；或者，所述待识别的多语言混合信号中不同语种全部映射到预设通用发音规则上，形成不同语种的完全融合。 8.一种支持多语言混合的语音识别装置，其特征在于，所述装置包括：语音特征获取单元，用于获取训练数据的语音特征；高维特征获取单元，用于通过至少两个平行网络获取与所述语音特征分别对应的高维特征；拼接特征获取单元，用于对所述平行网络输出的高维特征进行特征拼接，并获取与所述训练数据对应的拼接特征；语音识别模型形成单元，用于基于所述拼接特征训练神经网络模型，直至所述神经网络模型收敛至预设范围内，形成语音识别模型；语音识别单元，用于通过所述语音识别模型对待识别的多语言混合信号进行语音识别。 9.一种电子设备，其特征在于，所述电子设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的支持多语言混合的语音识别方法中的步骤。 10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的支持多语言混合的语音识别方法中的步骤。

专利专题