基于DNN和频带内互相关系数的单通道语音增强算法

引用

摘要：

本发明请求保护一种基于深度神经网络(Deep Neural Network,DNN)和频带内互相关系数的单通道语音增强算法，属于语音信号处理领域。首先，提取带噪语音的能量谱作为DNN的输入特征；接着，将噪声与带噪语音的频带内互相关系数(inter‑channel correlation factor,ICC factor)作为DNN的训练目标；然后，利用DNN模型得到的互相关系数构造凸优化的目标函数；最后，联合DNN和凸优化，利用梯度下降法迭代处理初始掩蔽，通过新的掩蔽合成增强语音。仿真实验表明，在不同背景噪声的低信噪比下，相比其他方法，本发明方法可以有效重构语音频谱成分，提升了语音的整体质量并且可以抑制噪声，具有重要的工程实际意义。

专利类型：发明专利

申请/专利号：CN202010497711.X

申请日期：2020-06-04

公开/公告号：CN111653287A

公开/公告日：2020-09-11

主分类号：G10L21/0208(2013.01)

申请/专利权人:重庆邮电大学

发明/设计人:张天骐;张晓艳;周琳;张刚;白杨柳

主申请人地址:400065 重庆市南岸区崇文路2号

国别省市代码:重庆;50

权利要求：

1.一种基于DNN和频带内互相关系数的单通道语音增强算法，具体步骤：首先提取带噪语音时频单元级别的特征，将带噪语音能量谱作为DNN的输入特征；接着为利用带噪语音和噪声的相关信息，以各频带内带噪语音与真实噪声的互相关系数，即噪声存在概率作为DNN的训练目标，训练DNN模型；然后，以IRM为凸优化的优化目标，利用DNN模型得到的互相关系数估计值构造凸优化的目标函数；最后，采用改进DD算法得到初始掩蔽，联合DNN和凸优化，采用梯度下降法对初始掩蔽迭代优化。利用迭代得到的“新掩蔽和带噪语音合成增强语音。 2.根据权利要求1所述的估计方法，其特征在于：用DNN模型来估计频带内带噪语音和噪声的互相关系数，并将其作为噪声存在概率构造凸优化的目标函数。 3.根据权利要求1和2所述的方法，其特征在于：根据带噪语音和噪声的能量谱已知的条件下，计算增强语音的能量谱或者掩蔽可看作一个凸优化过程。借助凸优化算法中的梯度下降法，迭代处理由改进DD算法得到的初始掩蔽，利用“新掩蔽和带噪语音合成增强语音。

专利专题