语音唤醒混合模型的训练方法、使用方法和相关设备

引用

摘要：

本申请提供了一种语音唤醒混合模型的训练方法、使用方法和相关设备，模型训练时，通过语音分离网络、特征变换网络和唤醒词检测网络混合学习训练得到语音唤醒混合模型。模型在使用时，将待识别音频输入语音唤醒混合模型内，直接得到唤醒概率。在唤醒概率大于阈值时，判定从待识别音频中识别到唤醒词。本申请在模型训练过程中，通过语音分离网络得到的第一损失函数、唤醒词检测网络得到的第二损失函数加权得到综合损失函数，并据此反向传播，学习得到语音分离网络、特征变换网络和唤醒词检测网络各自的权值参数。同时，本申请将上述各个网络统一到一个框架中，用联合优化的方法，使模型能同时学习到最优的分离和唤醒网络参数，有效提高唤醒率。

专利类型：发明专利

申请/专利号：CN202011068831.4

申请日期：2020-10-09

公开/公告号：CN111933114A

公开/公告日：2020-11-13

主分类号：G10L15/02(2006.01)

申请/专利权人:深圳市友杰智新科技有限公司

发明/设计人:王维;王广新;太荣鹏

主申请人地址:518000 广东省深圳市南山区招商街道蛇口南海大道1079号花园城数码大厦A座402

专利代理机构:深圳市明日今典知识产权代理事务所(普通合伙)

代理人:王杰辉%宋庆洪

国别省市代码:广东;44

权利要求：

1.一种语音唤醒混合模型的训练方法，其特征在于，包括：获取预处理样本集，所述预处理样本集包含多个干净唤醒样本和带噪样本；将各所述干净唤醒样本和各所述带噪样本的log功率谱特征输入语音分离网络，得到第一损失函数和分离输出；使用特征变换网络对所述分离输出进行特征提取，得到声学特征；将所述声学特征和所述干净唤醒样本的帧标签输入唤醒词检测网络，得到第二损失函数；根据所述第一损失函数和第二损失函数计算得到综合损失函数；使用所述综合损失函数进行反向传播，分别训练得到所述语音分离网络、所述特征变换网络和所述唤醒词检测网络的权值参数，以完成所述语音唤醒混合模型的训练。 2.根据权利要求1所述的语音唤醒混合模型的训练方法，其特征在于，所述获取预处理样本集的步骤，包括：获取干净唤醒样本集，所述干净唤醒样本集包含多个所述干净唤醒样本；对各所述干净唤醒样本进行随机信噪比加噪和/或加混响，得到多个带噪样本；综合所述干净唤醒样本和所述带噪样本，得到所述预处理样本集。 3.根据权利要求2所述的语音唤醒混合模型的训练方法，其特征在于，所述将各所述干净唤醒样本和各所述带噪样本的log功率谱特征输入语音分离网络，得到第一损失函数和分离输出的步骤，包括：对各所述干净唤醒样本和各所述带噪样本分别进行短时傅里叶变换，得到各所述干净唤醒样本的干净log功率谱和各所述带噪样本的带噪log功率谱；将各所述干净log功率谱和各所述带噪log功率谱输入所述语音分离网络，得到所述第一损失函数和所述分离输出。 4.根据权利要求1所述的语音唤醒混合模型的训练方法，其特征在于，所述干净唤醒样本包含唤醒词，所述将所述声学特征和所述干净唤醒样本的帧标签输入唤醒词检测网络，得到第二损失函数的步骤，包括：使用VAD和GMM-HMM将所述干净唤醒样本中的语音帧和对应的标签进行对齐；在对齐后的所述干净唤醒样本中，将所述唤醒词结束后的预设帧的标签设置为1，其余帧的标签设置为0，得到所述干净唤醒样本的帧标签；将所述声学特征和所述帧标签输入唤醒词检测网络，计算得到第二损失函数。 5.根据权利要求1所述的语音唤醒混合模型的训练方法，其特征在于，所述根据所述第一损失函数和第二损失函数计算得到综合损失函数的步骤，包括：将所述第一损失函数和所述第二损失函数代入预设公式中，加权计算得到所述综合损失函数，其中，所述预设公式为：,S1为所述第一损失函数，S2为所述第二损失函数，S3为所述综合损失函数，Z1为第一权重，Z2为第二权重。 6.一种语音唤醒混合模型的使用方法，其特征在于，所述语音唤醒混合模型为所述权利要求1至5中任一所述的训练方法得到的语音唤醒混合模型，所述使用方法包括：获取待识别音频；将所述待识别音频输入所述语音唤醒混合模型内，得到唤醒概率；判断所述唤醒概率是否大于阈值；若所述唤醒概率大于阈值，则判定从所述待识别音频中识别到唤醒词。 7.根据权利要求6所述的语音唤醒混合模型的使用方法，其特征在于，所述判定从所述待识别音频中识别到唤醒词的步骤之后，包括：输出唤醒信息，并根据所述唤醒信息执行对应的动作。 8.一种语音唤醒混合模型的训练装置，其特征在于，包括：第一获取模块，用于获取预处理样本集，所述预处理样本集包含多个干净唤醒样本和带噪样本；第一处理模块，用于将各所述干净唤醒样本和各所述带噪样本的log功率谱特征输入语音分离网络，得到第一损失函数和分离输出；提取模块，用于使用特征变换网络对所述分离输出进行特征提取，得到声学特征；第二处理模块，用于将所述声学特征和所述干净唤醒样本的帧标签输入唤醒词检测网络，得到第二损失函数；计算模块，用于根据所述第一损失函数和第二损失函数计算得到综合损失函数；训练模块，用于使用所述综合损失函数进行反向传播，分别训练得到所述语音分离网络、所述特征变换网络和所述唤醒词检测网络的权值参数，以完成所述语音唤醒混合模型的训练。 9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。 10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

专利专题