语音信号去混响处理方法、装置、计算机设备和存储介质

引用

摘要：

本申请涉及基于机器学习的一种语音信号去混响处理方法、装置、计算机设备和存储介质。所述方法包括：获取原始语音信号，提取所述原始语音信号中当前帧的幅度谱特征和相位谱特征；提取所述幅度谱特征的子带幅度谱，将所述子带幅度谱输入至第一混响预测器，输出所述当前帧对应的混响强度指标；利用第二混响预测器根据所述子带幅度谱和所述混响强度指标确定所述当前帧的纯净语音子带谱；对所述纯净语音子带谱和所述相位谱特征进行信号转换，得到去混响后的纯净语音信号。采用本方法能够有效提高语音信号的消除混响的准确率。

专利类型：发明专利

申请/专利号：CN202010250009.3

申请日期：2020-04-01

公开/公告号：CN111489760A

公开/公告日：2020-08-04

主分类号：G10L21/0208(2013.01)

申请/专利权人:腾讯科技(深圳)有限公司

发明/设计人:朱睿;李娟娟;王燕南;李岳鹏

主申请人地址:518000 广东省深圳市南山区高新区科技中一路腾讯大厦35层

专利代理机构:广州华进联合专利商标代理有限公司

代理人:王宁

国别省市代码:广东;44

权利要求：

1.一种语音信号去混响处理方法，其特征在于，所述方法包括：获取原始语音信号，提取所述原始语音信号中当前帧的幅度谱特征和相位谱特征；提取所述幅度谱特征的子带幅度谱，将所述子带幅度谱输入至第一混响预测器，输出所述当前帧对应的混响强度指标；利用第二混响预测器根据所述子带幅度谱和所述混响强度指标确定所述当前帧的纯净语音子带谱；对所述纯净语音子带谱和所述相位谱特征进行信号转换，得到去混响后的纯净语音信号。 2.根据权利要求1所述的方法，其特征在于，所述将所述子带幅度谱输入至第一混响预测器，输出所述当前帧对应的混响强度指标包括：利用第一混响预测器预测所述当前帧中各个子带的纯净语音能量比；根据所述各个子带的纯净语音能量比确定所述当前帧对应的混响强度指标。 3.根据权利要求2所述的方法，其特征在于，所述第一混响预测器包括输入层、预测层和输出层，所述将所述子带幅度谱输入至已训练的第一混响预测器，输出所述当前帧对应的混响强度指标包括：通过所述输入层提取各个子带幅度谱的维度特征；利用所述预测层根据所述维度特征提取各个子带幅度谱的表征信息，根据所述表征信息确定各个子带幅度谱的纯净语音能量比；利用所述输出层根据所述各个子带对应的纯净语音能量比输出所述当前帧对应的混响强度指标。 4.根据权利要求1所述的方法，其特征在于，所述利用第二混响预测器根据所述子带幅度谱和所述混响强度指标确定所述当前帧的纯净语音子带谱包括：利用所述第二混响预测器根据所述当前帧的幅度谱特征确定所述当前帧的后验信干比；利用所述后验信干比和所述混响强度指标计算所述当前帧的先验信干比；利用所述先验信干比对所述当前帧的子带幅度谱进行滤波增强处理，得到所述当前帧的纯净语音子带幅度谱。 5.根据权利要求4所述的方法，其特征在于，所述利用所述第二混响预测器根据所述当前帧的幅度谱特征确定所述当前帧的后验信干比包括：利用所述第二混响提取所述当前帧中各个子带对应的稳态噪声幅度谱；利用所述第二混响提取所述当前帧中各个子带对应的稳态混响幅度谱；利用所述稳态噪声幅度谱、所述稳态混响幅度谱和所述子带幅度谱确定所述当前帧的后验信干比。 6.根据权利要求5所述的方法，其特征在于，所述方法还包括：获取上一帧的纯净语音幅度谱；基于所述上一帧的纯净语音幅度谱，利用所述稳态噪声幅度谱、所述稳态混响幅度谱和所述子带幅度谱确定所述当前帧的后验信干比。 7.根据权利要求1所述的方法，其特征在于，所述方法还包括：对所述原始语音信号进行分帧加窗处理，得到所述原始语音信号中当前帧对应的幅度谱特征和相位谱特征；获取预设频带系数，根据所述频带系数对所述当前帧的幅度谱特征进行频带划分，得到所述当前帧对应的子带幅度谱。 8.根据权利要求7所述的方法，其特征在于，所述对所述纯净语音子带谱和所述相位谱特征进行信号转换，得到去混响后的纯净语音信号包括：根据所述频带系数对所述纯净语音子带谱进行逆恒变换，得到所述当前帧对应的纯净语音幅度谱；利用所述纯净语音幅度谱和所述相位谱特征进行时频转换，得到去混响后的纯净语音信号。 9.根据权利要求1所述的方法，其特征在于，所述第一混响预测器经过以下步骤进行训练：获取带混响语音数据和纯净语音数据，利用所述带混响语音数据和所述纯净语音数据生成训练样本数据；将所述带混响语音数据和所述纯净语音数据的混响与纯净语音能量比确定为训练目标；提取所述带混响语音数据对应的带混响频带幅度谱，提取所述纯净语音数据的纯净语音频带幅度谱；利用所述带混响频带幅度谱和所述纯净语音频带幅度谱以及所述训练目标训练第一混响预测器。 10.根据权利要求9所述的方法，其特征在于，所述利用所述带混响频带幅度谱和所述纯净语音频带幅度谱以及所述训练目标训练第一混响预测器包括：将所述带混响频带幅度谱和所述纯净语音频带幅度谱输入至预设网络模型，得到训练结果；基于所述训练结果与所述训练目标的差异，调整所述预设神经网络模型的参数并继续训练，直至满足所述训练条件时结束训练，得到所需的第一混响预测器。 11.一种语音信号去混响处理装置，其特征在于，所述装置包括：语音信号处理模块，用于获取原始语音信号，提取所述原始语音信号中当前帧的幅度谱特征和相位谱特征；第一混响预测模块，用于提取所述幅度谱特征的子带幅度谱，将所述子带幅度谱输入至第一混响预测器，输出所述当前帧对应的混响强度指标；第二混响预测模块，用于利用第二混响预测器根据所述子带幅度谱和所述混响强度指标确定所述当前帧的纯净语音子带谱；语音信号转换模块，用于对所述纯净语音子带谱和所述相位谱特征进行信号转换，得到去混响后的纯净语音信号。 12.根据权利要求11所述的装置，其特征在于，所述第一混响预测器包括输入层、预测层和输出层，所述第一混响预测模块还用于通过所述输入层提取各个子带幅度谱的维度特征；利用所述预测层根据所述维度特征提取各个子带幅度谱的表征信息，根据所述表征信息确定各个子带幅度谱的纯净语音能量比；利用所述输出层根据各个子带对应的纯净语音能量比输出所述当前帧对应的混响强度指标。 13.根据权利要求11所述的装置，其特征在于，所述第二混响预测模块还用于利用所述第二混响预测器根据所述当前帧的幅度谱特征确定所述当前帧的后验信干比；利用所述后验信干比和所述混响强度指标计算所述当前帧的先验信干比；利用所述先验信干比对所述当前帧的子带幅度谱进行滤波增强处理，得到所述当前帧的纯净语音子带幅度谱。 14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。 15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。

专利专题