10.11684/j.issn.1000-310X.2023.03.025
基于轻量级卷积门控循环神经网络的语声增强方法
针对在基于深度学习语声增强方法中因采用因果式的网络输入导致语声增强性能下降的问题,提出了一种基于轻量级卷积门控循环神经网络的语声增强方法.门控循环神经网络能够建模语声信号的时间相关性,但是其全连接结构忽略了语声信号的时频结构特征,并且参数数量庞大,不利于网络的训练.对此,该文采用卷积核替代门控循环神经网络中的全连接结构,在对语声信号时间相关性建模的同时保留了语声信号的时频结构特征,同时降低了网络的参数数量.为充分利用先前帧的特征信息,该网络单元当前时刻的输入融合了上一时刻的输入与输出.针对网络训练过程中容易产生过拟合的问题,该文采用了线性门控机制来控制信息的传输,这缓解了网络训练过程中的过拟合问题,提高了网络的语声增强性能.实验结果表明,该文所提出的网络结构在增强后的语声感知质量、语声短时客观可懂度、分段信噪比等指标上均优于传统的网络结构.
卷积门控循环神经网络、固定时延、因果式语声增强、语声质量、语声可懂度
42
TN912
国家自然科学基金;广西自然科学基金项目;认知无线电与信息处理教育部重点实验室基金
2023-06-08(万方平台首次上网日期,不代表论文的发表时间)
共7页
652-658