10.16798/j.issn.1003-0530.2021.10.010
基于双路径循环神经网络的单通道语音增强
近年来,随着神经网络的应用,语音增强效果显著提升.但对关联性较强的长序列语音数据,单一的网络结构受到自身性能的限制可能无法继续提升增强效果.为了进一步提升神经网络对语音增强的效果,本文将一种被称为双路径循环神经网络(dual-path recurrent neural network,DPRNN)的复合网络结构应用在语音增强任务中.该复合网络结构由卷积神经网络(convolution neural network,CNN)和长短时记忆神经网络(Long short-term memory,LSTM)组成,网络的核心是两个LSTM组成的双路径循环神经网络块(DPRNN Block).DPRNN将长序列语音数据分割为重叠帧数据块,利用DPRNN Block对这些数据块执行块内计算和块间计算,以此实现数据的局部和全局建模.实验结果表明,相比于单一网络结构,DPRNN在已知噪声和未知噪声条件下均取得最好结果.
语音增强;双路径循环神经网络;长短时记忆网络;卷积神经网络
37
TN912.35
2021-12-10(万方平台首次上网日期,不代表论文的发表时间)
共8页
1872-1879