一种基于生成式对抗网络的音频风格统一的方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

一种基于生成式对抗网络的音频风格统一的方法

引用
本发明公开了一种基于生成式对抗网络的音频风格统一的方法,包括步骤1:获取初始数据集和噪声数据集;步骤2:将初始数据集和噪声数据集进行预处理,生成噪声混合音频和风格模板音频并确定与其相关的训练数据集和测试数据集;步骤3:搭建生成网络模型,训练生成器网络G用于音频风格统一,输入为噪声混合音频和风格模板音频,输出为目标风格的音频和目标风格的频谱;步骤4:搭建判别网络模型,训练判别器网络D用以衡量生成器输出的目标风格的频谱和风格模板频谱的相似程度;步骤5:构建损失函数模型并训练生成式对抗网络;本方案一种基于生成对抗网络的音频风格统一的方法,可以按照用户选定的音频风格去调整其他输入音频的风格。

发明专利

CN202110351514.1

2021-03-31

CN113096675A

2021-07-09

G10L21/013(2013.01)

厦门大学

欧阳童洁;杨志军;谢晖泷;胡天林

361000 福建省厦门市思明南路422号

厦门原创专利事务所(普通合伙)

龚杰奇

福建;35

1.一种基于生成式对抗网络的音频风格统一的方法,其特征在于,包括: 获取初始数据集和噪声数据集; 按预设条件对初始数据集和噪声数据集进行预处理,生成噪声混合音频; 获取风格模板音频; 构建生成网络模型,训练获得生成器网络G,所述生成器网络G用于音频风格统一,所述噪声混合音频和风格模板音频输入生成器网络G后,输出目标风格音频和目标风格频谱; 获取风格模板音频对应的风格模板频谱; 构建判别网络模型,训练获得判别器网络D,所述判别器网络D用于衡量生成器网络G输出的目标风格频谱和风格模板频谱的相似程度,将所述目标风格频谱和风格模板频谱输入判别器网络D后,由判别器网络D对二者进行判别,并输出映射到”0,1”之间的概率分数; 构建损失函数模型,接入生成网络模型和判别网络模型,通过生成网络模型中的生成器网络G计算信息的损失程度,通过判别网络模型的判别器网络D评判风格损失程度,然后训练获得生成式对抗网络; 通过生成式对抗网络对待风格转化的音频进行音频风格统一转换,输出风格转换音频。 2.如权利要求1所述的基于生成式对抗网络的音频风格统一的方法,其特征在于,所述的初始数据集包括清华大学中文语音数据集THCHS30中干净的音频的集合; 所述的噪声数据集包括清华大学中文语音数据集THCHS30中3种噪声音频的集合。 3.如权利要求1所述的基于生成式对抗网络的音频风格统一的方法,其特征在于,所述的风格模板频谱为风格模板音频做傅里叶正变换后的频谱。 4.如权利要求3所述的基于生成式对抗网络的音频风格统一的方法,其特征在于,按预设条件对初始数据集和噪声数据集进行预处理,生成噪声混合音频的方法为: 将初始数据集和噪声数据集分别进行重采样为16.384kHz,且分别将其以4秒钟为间隔长度进行分割; 按预设公式生成噪声混合音频,生成噪声混合音频的公式为: Z=C+N*r 其中,C代表重采样并进行分割后的初始数据集中的一段音频;N代表重采样并进行分割后的噪声数据集中的一段音频;r代表在”0.1,0.3”之间随机数;Z代表生成的噪声混合音频中的一段音频。 5.如权利要求4所述的基于生成式对抗网络的音频风格统一的方法,其特征在于,所述的风格模板音频为从重采样且进行分割后的初始数据集中随机抽取或从预先构建的风格模板音频库中抽取。 6.如权利要求5所述的基于生成式对抗网络的音频风格统一的方法,其特征在于,所述噪声混合音频和风格模板音频中还均随机抽取85%的音频单元作为训练数据集,其余15%作为测试数据集;所述的训练数据集和测试数据集用于生成器网络G和/或判别器网络D的训练或测试。 7.如权利要求4至6之一所述的基于生成式对抗网络的音频风格统一的方法,其特征在于,所述的生成器网络G包括噪声混合音频编码器、风格模板音频编码器和解码器; 其中,生成器网络G具有两个输入端和两个输出端,其中一输入端用于输入噪声混合音频做傅里叶正变换之后的频谱,其大小为257*513*1,另一输入端用于输入风格模板频谱,其大小为257*513*1;其中一输出端用于输出目标风格频谱,其大小为257*513*1,该目标风格频谱被用于输入到判别器网络D进行比较,另一输出端用于输出目标风格频谱做傅里叶反变换之后的音频,即目标风格音频; 另外,噪声混合音频编码器包括8个编码器单元,每一个编码器单元的卷积核大小规格为3*3,步幅为2,激活函数为ReLu,而每一个编码器单元的卷积核个数依次为16,32,64,128,256,512,1024,2048,第一个编码器单元用于输入噪声混合音频做傅里叶正变换之后的频谱,其大小为257*513*1,其之后的每一个编码器单元的输入特征均为上一编码器单元的输出特征,最后一个编码器单元的输出尺度为2*3*2048; 风格模板音频编码器包括8个编码器单元,每一个编码器单元的卷积核大小规格为3*3,步幅为2,激活函数为ReLu,而每一个编码器单元的卷积核个数依次为16,32,64,128,256,512,1024,2048,第一个编码器单元用于输入风格模板频谱,其大小为257*513*1,其之后的每一个编码器单元的输入特征均为上一编码器单元的输出特征,最后一个编码器单元的输出尺度为2*3*2048; 解码器包括8个解码器单元,每一个解码器单元的反卷积核的大小均为3*3,步幅为2,激活函数为ReLu,而每一个解码器单元的反卷积核个数依次为1024、512、256、128、64、32、16、8,第一个解码器单元用于输入噪声混合音频编码器输出特征和风格模板音频编码器输出特征经张量拼接的结果,其之后的每一个解码器单元的输入特征均为上一解码器单元的输出特征,最后一个解码器单元的输出尺度为257*513*1。 8.如权利要求7所述的基于生成式对抗网络的音频风格统一的方法,其特征在于,所述的判别器网络D包括6层卷积层和5层全连接层; 其中,判别器网络D具有两个输入端和一个输出端,其中一输入端用于输入生成器网络G输出的目标风格频谱,其大小为257*513*1,另一输入端用于输入风格模板频谱,其大小为257*513*1,其输出端用于输出目标风格频谱和风格模板频谱的相似程度,且该相似程度结果通过”0,1”之间的概率分数形式输出; 另外,由判别器网络D输入端输入的数据在进入卷积层之前,还将目标风格频谱和风格模板频谱做张量拼接处理,经处理形成一个大小为257*513*2的特征被送入到卷积层,每一个卷积层的卷积核大小均为3*3,步幅为2,卷积前经BatchNorm批量标准化,激活函数为ReLu,而每一个卷积层的通道依次为32,64,128,256,512,1024,第一个卷积层为输入目标风格频谱和风格模板频谱做张量拼接处理的结果,其之后的每一个卷积层的输入特征均为上一个卷积层的输出特征,最后一个卷积层的输出尺度为5*9*1024; 全连接层的每一层神经元个数依次为46080,1024,256,64,1,其中其最后一层采用sigmoid作为激活函数,其他层均采用ReLu作为激活函数,全连接层的输入端用于输入最后一卷积层输出拉直之后的特征结果,全连接层的输出端用于输出目标风格频谱和风格模板频谱的相似程度,且该相似程度结果通过”0,1”之间的概率分数形式输出。 9.如权利要求8所述的基于生成式对抗网络的音频风格统一的方法,其特征在于,通过生成式对抗网络对待风格转化的音频进行音频风格统一转换之前,还对生成式对抗网络的网络参数进行优化处理,获得网络性能最优的参数。 10.如权利要求9所述的基于生成式对抗网络的音频风格统一的方法,其特征在于,构建损失函数模型,接入生成网络模型和判别网络模型,通过生成网络模型中的生成器网络G计算信息的损失程度,通过判别网络模型的判别器网络D评判风格损失程度,然后训练获得生成式对抗网络的具体方法为: (1)将判别器网络D的损失函数LD定义为: LD=(D(c,x)-1)2+(D(G(z,x),x))2 (1) (2)生成器网络G的损失函数LG由两部分组成,其一部分是判别器网络D输出的LGD,另一部分是生成器网络G输出的目标风格音频和初始数据集的音频的差异,记为其中, LGD=D(G(z,x),x) (2) 式(1),(2),(3),(4)中,n为生成器网络G输出的目标风格的频谱中矩阵元素的个数;c为初始数据集中的一段音频做傅里叶正变换之后的频谱;z为噪声混合音频做傅里叶正变换之后的频谱;x为风格模板音频做傅里叶正变换之后的频谱;K为超参数,用来控制两部分损失的权重; (3)采用学习率为0.001的Adam算法对生成器网络G进行优化;采用学习率为0.0001的Adam算法对判别器网络D进行优化,以此,通过对生成式对抗网络参数进行优化,获得生成式对抗网络性能最优的参数。
相关文献
评论
法律状态详情>>
2021-07-09公开
2021-07-09公开
相关作者
相关机构