一种基于时频域二值掩膜的多通道语音增强方法

引用

摘要：

本发明涉及一种针对阵列接收语音信号的基于时频域二值掩膜的多通道语音增强方法。利用网络模型输出语音存在概率估计计算二值掩膜，通过该二值掩膜实现对信号时频域的分类及相应的波束形成参数估计，从而获得更好的语音增强效果。其实现过程是：首先利用网络模型对阵列接收信号进行时频域语音存在概率估计，然后利用该估计结果以及接收信号计算阈值，从而计算二值掩膜估计及波束形成相关参数估计从而实现多通道语音增强。相较于现有的阵列接收信号语音增强算法，本发明具有更高的输出信噪比和主观语音质量评估PESQ得分。

专利类型：发明专利

申请/专利号：CN202010626489.9

申请日期：2020-07-01

公开/公告号：CN111816200A

公开/公告日：2020-10-23

主分类号：G10L21/0216(2013.01)

申请/专利权人:电子科技大学

发明/设计人:江家麒

主申请人地址:611731 四川省成都市高新区(西区)西源大道2006号

专利代理机构:电子科技大学专利中心

代理人:邹裕蓉

国别省市代码:四川;51

权利要求：

1.一种基于时频域二值掩膜的多通道语音增强方法，其特征在于，包括以下步骤： 1)搭建并训练网络模型，利用阵列接收语音信号，对接收的语音信号进行预处理获得接收的语音信号的时频域数据Xi(fk)；利用训练完成的网络模型对经过预处理后的时频域数据Xi(fk)进行接收信号时频域的语音存在概率的估计；Xi(fk)表示第i帧频率为fk的时频域数据，表示第i帧频率为fk的接收信号时频域的语音存在概率估计值； 2)利用时频域数据Xi(fk)和语音存在概率估计值得到语音信号的判决门限再基于判决门限获得时频域二值掩膜估计 3)利用时频域二值掩膜估计来计算导向矢量估计值及噪声协方差矩阵估计值 3-1)先利用二值掩膜估计值计算语音分量协方差矩阵估计值若不满秩，则直接进入步骤4)，否则对做特征分解，将特征分解后的主特征向量作为导向矢量估计值进入步骤3-2)； 3-2)利用时频域二值掩膜估计值计算噪声分量协方差估计值若不满秩，则直接进入步骤(4)，否则以此作为噪声协方差矩阵估计值再进入步骤4)；其中，Γ为时域上的总帧数； 4)对MVDR波束形成器权向量和后置滤波器权系数进行估计，并完成对时频域数据Xi(fk)的滤波： 4-1)若不满秩，则设置波束形成器权向量设置后置滤波器权系数滤波结果Zi(fk)＝0； 4-2)若不满秩，则设置波束形成器权向量设置后置滤波器权系数滤波结果 4-3)若与均满秩，则利用导向矢量估计值及噪声协方差矩阵估计值计算波束形成器权向量和后置滤波器权系数滤波结果 5)通过逆短时傅里叶变换将滤波结果还原为时域信号，得到增强后的时域语音信号。 2.如权利要求1所述方法，其特征在于，设置判决门限为语音分量平均功率与接收信号平均功率的比值。 3.如权利要求2所述方法，其特征在于，判决门限的具体计算方法为：其中，表示第i帧频率为fk的接收信号，M为阵元数，Tr”·”表示求迹，表示在信号整个时频域求和，H表示共轭转置。 4.如权利要求1所述方法，其特征在于，步骤4-2)中设置波束形成器权向量其中，||·||表示求向量的模长。 5.如权利要求1所述方法，其特征在于，4-3)中利用导向矢量估计值及噪声协方差矩阵估计值计算波束形成器权向量和后置滤波器权系数的具体方法为：其中，中间量其中，H表示共轭转置。

专利专题