基于听觉滤波器组和卷积神经网络的全局信噪比估计方法

引用

摘要：

本发明公开一种基于听觉滤波器组和卷积神经网络的全局信噪比估计方法，包括：1)对含噪语音利用bark尺度利用高通滤波器和低通滤波器将音频分割成不同的子带，并计算每个子带的能量；2)构建卷积神经网络，计算每个子带中噪声比例，进而计算子带中噪声能量；3)计算全局SNR。本发明主要针对噪声环境下全局信噪比估计提出了一种基于人耳滤波器组并且提出了一种针对多子带的卷积神经网络的动态噪声估计方法。针对不同子带的能量，利用卷积神经网络，提出了一种噪声比例估计方法，它能够动态的对不同子带噪声能量比例进行估计。利用动态的子带噪声能量进而将子带融合到全频带信噪比估计方法，进一步提高了全局信噪比计算的准确性。

专利类型：发明专利

申请/专利号：CN202110025619.8

申请日期：2021-01-08

公开/公告号：CN112885375A

公开/公告日：2021-06-01

主分类号：G10L25/60(2013.01)

申请/专利权人:天津大学

发明/设计人:王龙标;李楠;党建武;张苏林;于波

主申请人地址:300072 天津市南开区卫津路92号

专利代理机构:天津市北洋有限责任专利代理事务所

代理人:程小艳

国别省市代码:天津;12

权利要求：

1.基于听觉滤波器组和卷积神经网络的全局信噪比估计方法，其特征在于，包括： 1)对含噪语音利用bark尺度利用高通滤波器和低通滤波器将音频分割成不同的子带，并计算每个子带的能量； 2)构建卷积神经网络，计算每个子带中噪声比例，进而计算子带中噪声能量； 3)计算全局SNR；具体步骤如下： 1)基于Bark尺度的滤波器组使用多子带方法，将含噪语音分为不同频率的子带；使用基于Bark刻度的滤波器组，滤波器组由具有恒定带宽的带通滤波器组成，根据Bark尺度，滤波器的截止频率分别设置为”100 200 300 400 510 630 770 920 1080 12701480 1720 2000 2320 2700 3150 3700”，语音的采样频率在这个实验中被降到8000赫兹，这个过程可以用以下函数表示:y(k，n)＝BFB(y(n)) 其中，n为采样点的个数，k为将音频分割成K个子带后第k个子带，BFB表示Bark滤波器组；在分割成不同子带后还需要计算每个子带的能量，如下所示：Etotal(k，n)＝|y(k，n)|2 2)子带噪声能量的计算在训练阶段将子带能量输入到提出的子带噪声估计网络中来估计子带噪声能量比例，训练过程中的标签通过如下公式计算而得：其中，R＝”r(1)，r(2)，...，r(K)”N为一帧语音中所含有采样点的总数，r(k)为第k个子带的噪声能量占比，训练过程中通过训练神经网络gθ使得的值最小。；其中，R为每个子带噪声能量占比的集合；g为所提出的子带噪声能量估计网络(SNENet)；在解码/估计阶段，直接将测试数据的子带能量Ek,total输入到训练好的网络中就得到估计的子带噪声能量占比，通过将子带噪声能量占比和子带总能量相乘就可以得到最终的子带中噪声能量，如下公式所示：其中，为估计的第k个子带的噪声占比，ET(k)为求得的每个子带中噪声能量的大小； 3)全局信噪比的计算语音波形的功率由所有子带的功率之和计算得出，最后全局SNR由所有子带的功率融合得到如下所示：其中，PS(k)为第k个子带中所有纯净语音的能量和，PN(k)为第k个子带中所有噪声的能量和，通过将这些子带能量和相加就可以得到最终所估计出的全局SNR即)；其中，PN(k)由计算得出；LN为当大于P时所有语音帧的个数，当大于某一值时计算全局信噪比最准确，L为语音帧的总数；最后，通过将所有能量和所有噪声的能量相减就得到PS(k)。 2.根据权利要求1所述的基于听觉滤波器组和卷积神经网络的全局信噪比估计方法，其特征在于，在SNENet中使用CNN编解码器，不仅用于全连接层，还使用另一种卷积网络结构，即CNN编解码器C-ED网络，其中C-ED由卷积、平均池化、批处理规范化和ReLU层组成；编码器和解码器滤波器的数目是对应的，编码器滤波器的数目逐渐增加，解码器滤波器的数目逐渐减少；卷积神经网络中卷积层的通道数对应不同的子带，平均池化层用来减少参数的个数，在CNN模型中设置了不同的卷积核来学习不同的上下文模式。 3.根据权利要求1所述的基于听觉滤波器组和卷积神经网络的全局信噪比估计方法，其特征在于，在SNENet中使用一种基于全连接层的网络；后映射网络由两层全连通层组成，其中激活函数为ReLU；最后通过一层激活函数为Sigmoid的全连接网络，就可以得到最终的子带能量噪声占比。

专利专题