语音信号的噪声抑制方法、装置、设备及存储介质

引用

摘要：

本申请提供了一种语音信号的噪声抑制方法、装置、设备及存储介质，涉及音频处理技术领域。所述方法包括：获取带噪语音信号的特征数据；对特征数据进行变换处理，得到变换后的特征数据；对特征数据和变换后的特征数据进行两步递归处理，得到递归处理后数据；根据递归处理后数据生成增益信息；基于增益信息对带噪语音信号进行噪声抑制处理，得到降噪语音信号。本申请实施例提供了一种低复杂度的噪声抑制方案，通过简化模型结构，降低计算复杂度。

专利类型：发明专利

申请/专利号：CN202010658686.9

申请日期：2020-07-09

公开/公告号：CN111768795A

公开/公告日：2020-10-13

主分类号：G10L21/0208(2013.01)

申请/专利权人:腾讯科技(深圳)有限公司

发明/设计人:鲍枫

主申请人地址:518057 广东省深圳市南山区高新区科技中一路腾讯大厦35层

专利代理机构:北京三高永信知识产权代理有限责任公司

代理人:张所明

国别省市代码:广东;44

权利要求：

1.一种语音信号的噪声抑制方法，其特征在于，所述方法包括：获取带噪语音信号的特征数据，所述特征数据包括用于反映所述带噪语音信号的频谱特征的参数；对所述特征数据进行变换处理，得到变换后的特征数据；对所述特征数据和所述变换后的特征数据进行两步递归处理，得到递归处理后数据；根据所述递归处理后数据生成增益信息，所述增益信息包括应用于所述带噪语音信号的不同频带的增益值；基于所述增益信息对所述带噪语音信号进行噪声抑制处理，得到降噪语音信号。 2.根据权利要求1所述的方法，其特征在于，所述对所述特征数据和所述变换后的特征数据进行两步递归处理，得到递归处理后数据，包括：通过两层神经网络对所述特征数据和所述变换后的特征数据进行所述两步递归处理，得到所述递归处理后数据。 3.根据权利要求2所述的方法，其特征在于，所述两层神经网络包括第一神经网络层和第二神经网络层；所述通过两层神经网络对所述特征数据和所述变换后的特征数据进行所述两步递归处理，得到所述递归处理后数据，包括：通过所述第一神经网络层对所述特征数据和所述变换后的特征数据的融合结果进行处理，得到所述第一神经网络层的输出数据；通过所述第二神经网络层对所述特征数据和所述第一神经网络层的输出数据的融合结果进行处理，得到所述递归处理后数据。 4.根据权利要求3所述的方法，其特征在于，所述通过所述第一神经网络层对所述特征数据和所述变换后的特征数据的融合结果进行处理，得到所述第一神经网络层的输出数据，包括：对所述特征数据和所述变换后的特征数据进行融合处理，得到第一融合结果；通过所述第一神经网络层对所述第一融合结果进行处理，得到所述第一神经网络层的输出数据。 5.根据权利要求3所述的方法，其特征在于，所述通过所述第二神经网络层对所述特征数据和所述第一神经网络层的输出数据的融合结果进行处理，得到所述递归处理后数据，包括：对所述特征数据和所述第一神经网络层的输出数据进行融合处理，得到第二融合结果；通过所述第二神经网络层对所述第二融合结果进行处理，得到所述递归处理后数据。 6.根据权利要求1所述的方法，其特征在于，所述获取带噪语音信号的特征数据，包括：对所述带噪语音信号进行分帧处理，得到n个音频帧，所述n为正整数；提取所述n个音频帧分别对应的特征数据；其中，所述音频帧对应的特征数据包括：所述音频帧在巴克Bark频率尺度的k个频带上的频谱特征参数和能量参数，所述k为正整数。 7.根据权利要求1所述的方法，其特征在于，所述对所述特征数据进行变换处理，得到变换后的特征数据，包括：对所述特征数据进行线性变换处理，得到所述变换后的特征数据；或者，对所述特征数据进行非线性变换处理，得到所述变换后的特征数据。 8.根据权利要求1所述的方法，其特征在于，所述基于所述增益信息对所述带噪语音信号进行噪声抑制处理，得到降噪语音信号，包括：对于所述带噪语音信号在不同频带的频域信号，采用相应的增益值对所述频域信号进行处理，得到处理后频域信号；将所述处理后频域信号进行频域到时域的转换，得到所述降噪语音信号。 9.根据权利要求1至8任一项所述的方法，其特征在于，用于对所述带噪语音信号进行噪声抑制处理的噪声抑制模型包括：输入层、第一激活函数层、第一神经网络层、第二神经网络层、第二激活函数层和输出层；其中：所述输入层用于输入所述带噪语音信号的特征数据，所述输入层的神经元数量为44；所述第一激活函数层用于对所述特征数据进行变换处理，得到变换后的特征数据，所述第一激活函数层的神经元数量为20；所述第一神经网络层用于对所述特征数据和所述变换后的特征数据的融合结果进行处理，所述第一神经网络层的神经元数量为30；所述第二神经网络层用于对所述特征数据和所述第一神经网络层的输出数据的融合结果进行处理，所述第二神经网络层的神经元数量为60；所述第二激活函数层用于根据所述第二神经网络层的输出数据生成所述增益信息，所述第二激活函数层的神经元数量为24；所述输出层用于输出所述增益信息。 10.一种噪声抑制模型的训练方法，其特征在于，所述方法包括：获取训练样本，所述训练样本的样本数据包括带噪语音信号，所述训练样本的标签数据包括所述带噪语音信号对应的真实增益信息，所述真实增益信息包括应用于所述带噪语音信号的不同频带的真实增益值；获取所述带噪语音信号的特征数据，所述特征数据包括用于反映所述带噪语音信号的频谱特征的参数；通过噪声抑制模型基于所述特征数据，生成预估增益信息；其中，所述预估增益信息包括应用于所述带噪语音信号的不同频带的预估增益值，所述噪声抑制模型用于对所述特征数据和变换后的特征数据进行两步递归处理后，根据递归处理后数据生成所述预估增益信息；基于所述预估增益信息和所述真实增益信息，计算所述噪声抑制模型的损失函数值；基于所述损失函数值调整所述噪声抑制模型的参数，对所述噪声抑制模型进行训练。 11.根据权利要求10所述的方法，其特征在于，所述获取训练样本，包括：获取训练数据，所述训练数据包括语音信号集和噪声信号集，所述语音信号集中包括至少一个语音信号，所述噪声信号集中包括至少一个噪声信号；对所述语音信号和所述噪声信号进行混合生成所述带噪语音信号；获取所述语音信号的能量值与所述噪声信号的能量值；将所述语音信号的能量值除以所述语音信号与所述噪声信号的能量值之和，得到所述带噪语音信号对应的真实增益信息；以所述带噪语音信号为样本数据，所述带噪语音信号对应的真实增益信息为标签数据，生成所述训练样本。 12.一种语音信号的噪声抑制装置，其特征在于，所述装置包括：特征获取模块，用于获取带噪语音信号的特征数据，所述特征数据包括用于反映所述带噪语音信号的频谱特征的参数；特征变换模块，用于对所述特征数据进行变换处理，得到变换后的特征数据；递归处理模块，用于对所述特征数据和所述变换后的特征数据进行两步递归处理，得到递归处理后数据；增益生成模块，用于根据所述递归处理后数据生成增益信息，所述增益信息包括应用于所述带噪语音信号的不同频带的增益值；噪声抑制模块，用于基于所述增益信息对所述带噪语音信号进行噪声抑制处理，得到降噪语音信号。 13.一种噪声抑制模型的训练装置，其特征在于，所述装置包括：样本获取模块，用于获取训练样本，所述训练样本的样本数据包括带噪语音信号，所述训练样本的标签数据包括所述带噪语音信号对应的真实增益信息，所述真实增益信息包括应用于所述带噪语音信号的不同频带的真实增益值；特征获取模块，用于获取所述带噪语音信号的特征数据，所述特征数据包括用于反映所述带噪语音信号的频谱特征的参数；模型处理模块，用于通过噪声抑制模型基于所述特征数据，生成预估增益信息；其中，所述预估增益信息包括应用于所述带噪语音信号的不同频带的预估增益值，所述噪声抑制模型用于对所述特征数据和变换后的特征数据进行两步递归处理后，根据递归处理后数据生成所述预估增益信息；损失计算模块，用于基于所述预估增益信息和所述真实增益信息，计算所述噪声抑制模型的损失函数值；参数调整模块，用于基于所述损失函数值调整所述噪声抑制模型的参数，对所述噪声抑制模型进行训练。 14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一项所述的方法，或者实现如权利要求10或11所述的方法。 15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一项所述的方法，或者实现如权利要求10或11所述的方法。

专利专题