基于卷积神经网络的时域语音盲分离方法研究
已有的语音分离方法大多都是通过混合信号的频域表示来处理分离问题,然而这些方法一直存在着包括信号的相位与幅度的解耦、语音分离时频表示的次优性以及计算频谱的高时间延迟等问题.为了探索处理上述问题的方法,在原有卷积时域网络(Conv-TasNet)的卷积运算中对语音信号的长期依赖性进行了重新建模.为了弥补零填充导致的有效数据损失,新的时间卷积块会采取以递补数据代替零填充以保持输入输出长度一致,用有效数据代替卷积中的零填充来增加底层片段两端的卷积参与率,并减少相邻语音片段的20%层叠部分以减少计算量.改进后的模块用于分离两说话人的混合语音,得到的目标语音在信噪比方面比原方法改善了0.6%,相对于已有的时频掩蔽方法在性能相近的前提下其模型缩小为时频掩蔽方法的五分之一.
语音分离;深度神经网络;端到端模型;时间卷积网络;时域;递补填充
48
TN911
2021-09-09(万方平台首次上网日期,不代表论文的发表时间)
共11页
204-214