一种用于因果式语音增强的门控循环神经网络

引用

摘要：

传统基于深度学习的语音增强方法为了提高网络对带噪语音的建模能力,通常采用非因果式的网络输入,由此导致了固定时延问题,使得语音增强系统实时性较差.提出一种用于因果式语音增强的门控循环神经网络CGRU,以解决实时语音增强系统中的固定时延问题并提高语音增强性能.为了更好地建模带噪语音信号的相关性,网络单元在计算当前时刻的输出时融合上一时刻的输入与输出.此外,采用线性门控机制来控制信息传输,以缓解网络训练过程中的过拟合问题.考虑到因果式语音增强系统对实时性要求较高,在CGRU网络中采用单门控的结构设计,以降低网络的结构复杂度,提高系统的实时性.实验结果表明,CGRU网络在增强后的语音感知质量、语音客观可懂度、分段信噪比指标上均优于GRU、SRNN、SRU等传统网络结构,在信噪比为0 dB的条件下,CGRU的平均语音感知质量和平均语音客观可懂度分别达到2.4和0.786.

关键词：门控循环神经网络、固定时延、因果式语音增强、语音质量、语音可懂度

所属期刊栏目：48

分类号：TP18(自动化基础理论)

资助基金：国家自然科学基金;广西自然科学基金项目

在线出版日期：2022-11-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：77-82

英文信息展示

期刊专题