基于生成对抗网络的短语音样本补偿方法及存储介质

引用

摘要：

本发明请求保护一种基于生成对抗网络的短语音样本补偿方法及存储介质。该方法用于解决说话人识别系统中短语音情况造成的语料数据不充分，进而导致识别率严重降低的问题。它假设长语音分布中含有充分的区分说话人身份信息的特征，从长语音中提取能区分说话人身份的特征作为生成器G和判别器D的条件输入。把短语音作为生成器G的输入，生成器G试图在条件信息的辅助下把短语音补偿成接近真实长语音分布的样本，而鉴别器D试图确定给定的语音是真实的长语音样本还是由生成器补偿的伪语音。本发明完成了短语音样本到补偿语音样本的映射，在使补偿后的语音含有充分声学特征的同时还增加了训练样本的通用性和多样性，从而提高系统鲁棒性，降低说话人识别等错误率。

专利类型：发明专利

申请/专利号：CN201911067181.9

申请日期：2019-11-04

公开/公告号：CN112133293A

公开/公告日：2020-12-25

主分类号：G10L15/06(2013.01)

申请/专利权人:重庆邮电大学

发明/设计人:胡章芳;付亚芹

主申请人地址:400065 重庆市南岸区南山街道崇文路2号

专利代理机构:重庆市恒信知识产权代理有限公司

代理人:刘小红%陈栋梁

国别省市代码:重庆;50

权利要求：

1.一种基于生成对抗网络的短语音样本补偿方法，其特征在于，包括以下步骤： S1，采用麦克风获取语音信号； S2，对步骤S1获取的所有语音数据依次进行预加重、分帧、加窗、快速傅里叶变换、Mel滤波及离散余弦变换在内的预处理，提取说话人语音信号的个性身份特征——梅尔频率倒谱系数MFCC，分割语音信号获取短语音； S3，构建生成对抗网络模型，它由生成器模型G和判别器模型D两个模型构成，随机噪声矢量z通过生成模型G生成尽量服从真实数据分布Pdata的样本G(z)，判别模型D可以判断出输入样本是真实数据x还是生成数据G(z)； S4，构建生成对抗网络模型的优化目标函数V(D,G)，进行模型训练； S5，构建面向模型的学习任务——生成器补偿性能衡量训练任务及判别器特征标签训练任务，生成器补偿性能衡量训练任务用于减小补偿语音分布与真实语音分布的偏差，判别器特征标签训练任务用于提高补偿语音说话人区分能力。 2.根据权利要求1所述的一种基于生成对抗网络的短语音样本补偿方法，其特征在于，所述步骤S2具体步骤包括： S21：对所有语音信号依次进行预加重、分帧、加窗、快速傅里叶变换。再计算功率谱，将得到的功率谱通过三角带通滤波器，滤波输出的结果利用Mel域与线性频率的关系式转为对数形式：最后经离散余弦变换得到MFCC特征参数的第i维特征分量Ci的表达式为： m表示滤波器的数量，通常为20～28。将得到的说话人语音信号的MFCC作为身份个性特征； S22：分割语音信号获取短语音，构成长语音和短语音对。 3.根据权利要求2所述的一种基于生成对抗网络的短语音样本补偿方法，其特征在于，所述步骤S3中构建的生成对抗网络模型具体为： S31：生成对抗网络模型的生成器G是一个深度神经网络，使用短语音z作为生成器G的输入，短语音样本经过生成器G得到补偿语音样本G(z)，判别器D是一个充当二元分类器的深度神经网络，相同条件下，把经过生成器G补偿后的短语音样本G(z)和真实长语音样本x交替作为鉴别器D的输入，判别器D判断所给语音是真实长语音样本或是由生成器补偿得到； S32：在模型中使用生成对抗网络的条件版本，即条件生成对抗网络CGAN，它是在GAN的基础上加上了条件扩展为条件模型，所以，生成器G和判别器D的隐藏层都引入了说话人身份个性特征条件c——梅尔频率倒谱系数MFCC，更好地引导短语音到补偿语音的映射过程。 4.根据权利要求3所述的一种基于生成对抗网络的短语音样本补偿方法，其特征在于，所述步骤S4构建生成对抗网络模型的目标优化函数V(D,G)，同时进行模型训练，具体包括： S41：生成对抗网络条件版本，它对于目标函数V(D,G)的优化过程如下式所示：其中，Ex～Pdata(x)”logD(x|c)”表示在条件c的引导下判别器D判断真实长语音数据x为是否为真实的概率，Ez～Pdata(z)”log(1-D(G(z|c)|c))”表示短语音z在同样条件信息输入下生成器产生的补偿样本，然后判别器D判断其是否为真实数据的概率； S42：在训练过程中，生成器G的目标是在条件c的引导下把短语音尽量补偿成满足真实长语音分布的语音，而判别器D尽量把生成器G补偿语音和真实长语音区分开，这样生成器G和判别器D构成一个动态“博弈”过程，使用梯度下降法对判别器D和生成器G交替做优化。 5.根据权利要求4所述的一种基于生成对抗网络的短语音样本补偿方法，其特征在于，所述使用梯度下降法对判别器D和生成器G交替做优化的详细步骤如下：第1步：从已知的短语音分布Pz(z)中选出一些样本”z(1),z(2)……,z(m)”；第2步：从训练数据中选出对应的真实长语音数据”x(1),x(2)……,x(m)”；第3步：从真实长语音中提取出条件信息”c(1),c(2)……,c(m)”；第4步：设判别器D的参数为θd，求出下式目标函数关于参数的梯度，对θd更新时加上该梯度； m表示样本个数。第5步：设生成器G的参数为θg，求出下式目标函数关于参数的梯度，对θg更新时减去该梯度；每当对判别器D的参数更新一次，便接着更新一次生成器G的参数。 6.根据权利要求5所述的一种基于生成对抗网络的短语音样本补偿方法，其特征在于，所述步骤S5在模型训练过程中为生成器G和判别器D分别设计了学习任务来引导数据的补偿过程，具体过程如下： S51：生成器补偿性能衡量训练任务。衡量生成器G补偿性能最直接的方法就是计算补偿语音与真实语音的数值差，假设把N个数据分为i组，第i组补偿语音和真实长语音的差异程度用均方误差来衡量：其中，observedreal,i表示真实语音样本的第i组数据，predictedgan,i表示基于生成对抗网络多任务框架补偿的语音样本的第i组数据，目标是最小化MSE值，生成器G学习补偿语音与真实长语音之间差异的目标函数如下： E(·)为期望值的计算，G(z|c)表示生成器在条件c的引导下生成的补偿样本。衡量生成器补偿性能的数值差异函数lossG，目标是在训练过程中最小化该数值差异函数，让生成器的补偿性能达到最优状态； S52：判别器特征标签训练任务：使用鉴别器的特征标签训练任务来提高补偿语音说话人区分能力，把每一个从真实长语音中提取的MFCC特征代表不同的说话人标签，补偿语音和真实长语音输入鉴别器后，通过特征距离测量预测该语音是否属于所属类特征标签，并最小化预测特征标签结果与真实特征标签之间的交叉熵。 7.根据权利要求6所述的一种基于生成对抗网络的短语音样本补偿方法，其特征在于，所述最小化鉴别器预测特征标签结果与真实特征标签之间的交叉熵目标函数为：其中ni表示第i段语音信号截取的短语音数量，为鉴别器根据事实观测到真实长语音属于的第k类特征标签的经验概率，为鉴别器根据特征距离计算得到补偿语音属于的第k类特征标签的预测概率，在训练过程中，通过不断最小化真实语音和补偿语音所属的特征标签的交叉熵损失来稳定鉴别器的训练，让补偿语音携带更多说话人身份特征。 8.一种存储介质，该存储介质内部存储计算机程序，其特征在于，所述计算机程序被处理器读取时，执行上述权利要求1～7任一项的方法。

专利专题