基于生成对抗网络的音频补偿方法
为解决音频补偿存在可修复片段长度较短、修复对象局限于高重复性音频和采用语谱图所带来的逆变换失真等问题,提出了针对长语音补偿的新生成对抗网络.新网络模型以原始语音作为输入输出信号,解决传统基于语谱图方法的局限性.首先,采用前后文编解码器作为生成器,提高对信号时域空白间隙周围可用内容的利用率;其次,将语音特征提取模块加入鉴别器,通过学习前后文内容中音高、音素特征,有效提升训练效率和生成质量.结果表明:与现有多个算法进行对比,提出的生成对抗网络具有良好的语音补偿性能,可修复间隙长度达256 ms.进一步通过变速扩展音频长度,针对扩展语音新模型可稳定修复长达500 ms的语音间隙.
音频补偿、生成对抗网络、前后文编解码器、语音特征提取
50
TB51+8(声学工程)
交通运输行业重点实验室;国家自然科学基金;广州大学校内科研项目;广州市科技计划项目
2022-12-15(万方平台首次上网日期,不代表论文的发表时间)
共10页
39-48