10.12066/j.issn.1007-2861.2449
基于生成对抗网络数据增强的抗噪语音识别系统
语音识别的研究始终存在数据集具有局限性的问题.通过数据增强可以提升训练数据的规模以及多样性,从而提升识别的准确率.提出了一种基于生成对抗网络(generative adversarial network,GAN)的语音数据生成方法,以改善噪声条件下的语音识别.首先,使用基础的GAN结构,逐帧生成基于光谱特征水平的语音样本;之后,针对缺乏真实标签用于训练的问题,又提出了一种利用非转录数据进行声学建模的无监督学习框架,并利用条件GAN结构探讨2种条件:每个语音帧的声学状态和与数据集中语音对应的原始干净语音.整合了条件信息的条件GAN可以直接提供真实标签用于声学建模.该方法在2个噪声任务(Aurora-4和AMI会议转录任务)上进行了评估.研究结果表明,在各种噪声条件(加性噪声、信道失真和混响)下,该方法都能显著提升性能.GAN生成的增强数据在先进的非常深度卷积神经网络(very deep convolutional network,VDCNN)声学模型上,可以降低6%~14%的字错误率(word error rate,WER).
生成对抗网络、声学模型、数据增强、噪声、语音识别
30
TN912
2024-08-19(万方平台首次上网日期,不代表论文的发表时间)
共15页
476-490