语音处理方法、装置、设备和存储介质

引用

摘要：

提供了一种语音处理方法、装置、设备和存储介质，该方法包括：获取混合语音输入；对混合语音输入进行特征编码以获取第一混合语音特征序列；对第一混合语音特征序列进行特征提取以获取第二混合语音特征序列；基于第二混合语音特征序列获取表征多个说话人中的每个说话人的识别信息的语音识别特征；基于第二混合语音特征序列以及语音识别特征获取分别与多个说话人中的每个说话人相对应的多个分离语音表示；以及对多个分离语音表示进行解码以获取分别与多个说话人中的每个说话人相对应的多个分离语音。本方法结构简单，并且允许更有效的模型训练，能够在严重干扰的情况下获得可分离的和泛化的语音表示并且能够获得更高的信噪比改善。

专利类型：发明专利

申请/专利号：CN202010927751.3

申请日期：2020-09-07

公开/公告号：CN111899758A

公开/公告日：2020-11-06

主分类号：G10L21/028(2013.01)

申请/专利权人:腾讯科技(深圳)有限公司

发明/设计人:王珺

主申请人地址:518057 广东省深圳市南山区高新区科技中一路腾讯大厦35层

专利代理机构:北京市柳沈律师事务所

代理人:王娟%黄玫

国别省市代码:广东;44

权利要求：

1.一种基于神经网络的语音处理方法，包括：获取混合语音输入，所述混合语音输入包括来自多个说话人的语音；由编码器，对所述混合语音输入进行特征编码，以获取所述混合语音输入的第一混合语音特征序列；由特征提取器，对所述第一混合语音特征序列进行特征提取，以获取第二混合语音特征序列，其中，所述第二混合语音特征序列与所述第一混合语音特征序列的维度相同；由语音识别器，基于所述第二混合语音特征序列，获取表征所述多个说话人中的每个说话人的识别信息的语音识别特征；由语音分离器，基于所述第二混合语音特征序列以及所述语音识别特征，获取分别与所述多个说话人中的每个说话人相对应的多个分离语音表示；以及由解码器，对所述多个分离语音表示进行解码，以获取分别与所述多个说话人中的每个说话人相对应的多个分离语音。 2.如权利要求1所述的方法，其中，由编码器，对所述混合语音输入进行特征编码，以获取所述混合语音输入的第一混合语音特征序列，包括：对所述混合语音输入进行特征编码，以获取初始混合语音特征序列，所述初始混合语音特征序列的第一维度为特征维度，且所述初始混合语音特征序列的第二维度为时域步长维度；对所述初始混合语音特征序列进行分段，以获取所述第一混合语音特征序列，所述第一混合语音特征序列的第一维度为特征维度，所述第一混合语音特征序列的第二维度为块内索引维度，且所述第一混合语音特征序列的第三维度为分块索引维度。 3.如权利要求1所述的方法，其中，所述特征提取器包括级联的第一数量M个特征提取块，其中，由特征提取器，对所述第一混合语音特征序列进行特征提取，以获取第二混合语音特征序列包括：由第1个特征提取块，对所述第一混合语音特征序列进行特征提取，以获取第1中间特征序列；由第m个特征提取块，对从第m-1个特征提取块接收的第m-1中间特征序列进行特征提取，以获取第m中间特征序列，其中，m为大于1且小于M的整数，M为大于等于2的整数；由第M个特征提取块，对从第M-1个特征提取块接收的第M-1中间特征序列进行特征提取，以获取所述第二混合语音特征序列，其中，对于所述第1中间特征序列、所述第m中间特征序列以及所述第二混合语音特征序列中的每一个序列，其第一维度为特征维度，其第二维度为块内索引维度，且其第三维度为分块索引维度。 4.如权利要求1-3中任一项所述的方法，其中，所述语音识别器包括投影器、嵌入提取器以及级联的第二数量A个语音识别块，其中，由语音识别器，基于所述第二混合语音特征序列，获取表征所述多个说话人中的每个说话人的识别信息的语音识别特征包括：由所述级联的第二数量A个语音识别块，对所述第二混合语音特征序列进行特征转换，以获取第一混合语音识别特征，其中，所述第一混合语音识别特征的第一维度为特征维度，第二维度为块内索引维度，且第三维度为分块索引维度；由所述投影器，对所述第一混合语音识别特征进行投影，以获取第二混合语音识别特征，其中，所述第二混合语音识别特征的第一维度为特征维度，第二维度为说话人索引维度，第三维度为块内索引维度，且第四维度为分块索引维度；由所述嵌入提取器，对所述第二混合语音识别特征在块内索引维度上进行池化处理，以获取粗尺度语音识别特征，其中，所述粗尺度语音识别特征的第一维度为特征维度，第二维度为说话人索引维度，且第三维度为分块索引维度；以及由所述嵌入提取器，对所述粗尺度语音识别特征在分块索引维度上进行池化处理，以获取表征所述多个说话人中的每个说话人的识别信息的语音识别特征。 5.如权利要求4所述的方法，其中，所述语音分离器包括语音调制块，其中，基于所述第二混合语音特征序列以及所述语音识别特征，获取分别与所述多个说话人中的每个说话人相对应的多个分离语音表示包括：由语音调制块，利用所述语音识别特征对所述第二混合语音特征序列进行调制，以获取分别与所述多个说话人中的每个说话人相对应的多个分离语音表示。 6.如权利要求5所述的方法，其中，所述语音分离器包括级联的第三数量B个语音分离块，并且每个所述语音分离块包括对应的语音调制块，其中，由语音调制块，利用所述语音识别特征对所述第二混合语音特征序列进行调制，以获取分别与所述多个说话人中的每个说话人相对应的多个分离语音表示包括：由第1个语音分离块，对所述第二混合语音特征序列进行特征转换，以获取第1中间混合语音特征序列；由第1个语音调制块，利用所述语音识别特征对所述第1中间混合语音特征序列进行调制，以获取第1中间调制序列；由第i个语音分离块，对从第i-1个语音调制块接收的第i-1中间调制序列进行特征转换，以获取第i中间混合语音特征序列，其中，i为大于1且小于B的整数，B为大于等于2的整数；由第i个语音调制块，利用所述语音识别特征对所述第i中间混合语音特征序列进行调制，以获取第i中间调制序列；由第B个语音分离块，对从第B-1个语音调制块接收的第B-1中间调制序列进行特征转换，以获取第B中间混合语音特征序列；以及由第B个语音调制块，利用所述语音识别特征对所述第B中间混合语音特征序列进行调制，以获取分别与所述多个说话人中的每个说话人相对应的多个分离语音表示，其中，对于所述第1中间混合语音特征序列、第1中间调制序列、第i中间混合语音特征序列、第i中间调制序列、第B中间混合语音特征序列以及所述第二混合语音特征序列中的每一个序列，其第一维度为特征维度，其第二维度为块内索引维度，且其第三维度为分块索引维度。 7.如权利要求6所述的方法，其中，所述特征提取器、所述语音识别器以及所述语音分离器的训练过程包括预训练阶段和联合训练阶段，其中，所述预训练阶段包括：获取包括多个预训练混合语音样本的预训练样本集合，其中每个预训练混合语音样本包括来自多个说话人的语音；针对预训练样本集合中的每个预训练混合语音样本，由待训练的编码器，对所述预训练混合语音样本进行特征编码，以获取所述预训练混合语音样本的第一预训练混合语音特征序列；由待训练的提取分离器，对所述第一预训练混合语音特征序列进行特征提取，以获取第二预训练混合语音特征序列，其中，所述待训练的提取分离器包括级联的第四数量F个待训练的提取分离块；由待训练的投影器，对所述第二预训练混合语音特征序列进行投影，以获取分别与所述多个说话人中的每个说话人相对应的多个估计掩模；由待训练的解码器，基于所述多个估计掩模获取分别与所述多个说话人中的每个说话人相对应的多个估计分离语音；根据所述来自多个说话人的语音以及所述多个估计分离语音，基于提取分离损失函数计算所述预训练混合语音样本的提取分离损失；以及基于所述提取分离损失训练所述待训练的编码器、所述待训练的提取分离器、所述待训练的投影器以及所述待训练的解码器的参数，以生成经预训练的编码器、提取分离器、投影器以及解码器。 8.如权利要求7所述的方法，其中，所述提取分离损失函数基于所述来自多个说话人的语音以及所述多个估计分离语音的尺度不变信噪比来确定。 9.如权利要求7所述的方法，其中，所述联合训练阶段包括：获取包括多个联合训练混合语音样本的联合训练样本集合，其中每个联合训练混合语音样本包括来自多个说话人的语音；针对联合训练样本集合中的每个联合训练混合语音样本，由经预训练的编码器，对所述联合训练混合语音样本进行特征编码，以获取所述联合训练混合语音样本的第一联合训练混合语音特征序列；由经预训练的特征提取器，对所述第一联合训练混合语音特征序列进行特征提取，以获取第二联合训练混合语音特征序列，其中，所述经预训练的特征提取器包括级联的第一数量M个经预训练的特征提取块，其中，所述M个经预训练的特征提取块是F个经预训练的提取分离块的一部分；由待训练的语音识别器，基于所述第二联合训练混合语音特征序列，获取表征所述多个说话人中的每个说话人的识别信息的联合训练语音识别特征，其中，所述待训练的语音识别器包括级联的第二数量A个经预训练的语音识别块，其中，所述A个经预训练的语音识别块是F个经预训练的提取分离块的一部分；由待训练的语音分离器，基于所述第二联合训练混合语音特征序列以及所述联合训练语音识别特征，获取分别与所述多个说话人中的每个说话人相对应的多个联合训练分离语音表示；由经预训练的解码器，对所述多个联合训练分离语音表示进行解码，以获取分别与所述多个说话人中的每个说话人相对应的多个联合训练估计分离语音；根据所述待训练的语音识别器获取的联合训练语音识别特征以及所述多个联合训练估计分离语音，基于联合训练损失函数计算所述联合训练混合语音样本的联合训练损失；以及基于所述联合训练损失来联合训练所述待训练的语音识别器以及所述待训练的语音分离器的参数，以生成经联合训练的语音识别器和语音分离器。 10.如权利要求7所述的方法，其中，所述预训练混合语音样本中包括的来自每个说话人的语音包括与该语音相对应的干扰语音，其中，所述干扰语音为来自其他说话人的语音。 11.一种基于神经网络的语音处理装置，包括：输入模块，用于获取混合语音输入，所述混合语音输入包括来自多个说话人的语音；编码器，用于对所述混合语音输入进行特征编码，以获取所述混合语音输入的第一混合语音特征序列；特征提取器，用于对所述第一混合语音特征序列进行特征提取，以获取第二混合语音特征序列，其中，所述第二混合语音特征序列与所述第一混合语音特征序列的维度相同；语音识别器，用于基于所述第二混合语音特征序列，获取表征所述多个说话人中的每个说话人的识别信息的语音识别特征；语音分离器，用于基于所述第二混合语音特征序列以及所述语音识别特征，获取分别与所述多个说话人中的每个说话人相对应的多个分离语音表示；以及解码器，用于对所述多个分离语音表示进行解码，以获取分别与所述多个说话人中的每个说话人相对应的多个分离语音。 12.一种语音处理设备，包括：处理器；和存储器，其上存储有计算机可执行指令，所述指令在被处理器执行时用于实现如权利要求1-10中任一项所述的方法。 13.一种计算机可读存储介质，其上存储有计算机可执行指令，所述指令在被处理器执行时用于实现如权利要求1-10中任一项所述的方法。

专利专题