多尺度时域单通道语音分离网络设计
近年来,基于频域的语音分离方法取得了很大进展.然而该方法只分离幅度谱、不分离相位谱,造成分离后的语音在语音感知方面效果不佳.针对此问题,受到卷积时域网络结构启发,提出一种多尺度时域语音分离网络Mixconv-Tasnet,首先将一维信号映射到多维空间,之后将多维空间进行分组,每组采用不同大小的卷积核,不同大小的卷积核可提取不同尺度特征.改进后的网络可用于分离两说话人的混合语音.实验结果表明,相比于已有方法,所提方法在分离语音质量和模型大小等方面具有明显优势.
单通道;语音分离;卷积核
45
TP181(自动化基础理论)
2021-12-08(万方平台首次上网日期,不代表论文的发表时间)
共4页
96-99