10.13232/j.cnki.jnju.2023.04.013
基于多维注意力机制的单通道语音增强方法
基于深度学习的单通道语音增强技术能有效改善语音增强的质量,但在低信噪比环境下,语音增强的效果不能令人满意.为了改善低信噪比下单通道语音增强的质量,提出一种多维注意力机制(Multi-Dimensional Attention Mechanism,MDAM),通过将通道注意力和全局、局部时间注意力进行级联,充分挖掘深度神经网络各通道间语音特征的长短时相关性.在此基础上,设计了基于多维注意力机制的时域语音增强网络MDAM-Net,采用跳跃连接的编解码结构获取深层语音特征,并采用MDAM充分关注干净语音特征在网络通道间、时间方向上全局与局部范围的变化差异,可以更好地建模语音特征的上下文联系.仿真实验的结果表明,在保持较低模型参数量条件下,MDAM-Net在VoiceBank-DEMAND公开数据集上增强语音的PESQ(Perceptual Evaluation of Speech Quality)评分可以达到3.25.在低信噪比条件下,增强语音质量显著优于已有的单通道语音增强模型.
单通道语音增强、多维注意力、通道注意力、Transformer
59
TN912
国家自然科学基金;陆军工程大学基础前沿项目
2023-11-02(万方平台首次上网日期,不代表论文的发表时间)
共11页
669-679