一种人声音色替换方法及系统

引用

摘要：

本申请关于一种人声音色替换方法及系统，包括，获取训练所用人声音频数据集、目标人声音频文件与待替换的人声音频文件，训练所用人声音频数据集为人声干声音频数据集；对目标人声音频文件与待替换的人声音频文件进行预处理，得到统一化的音频数据；构建并训练基于编码器‑解码器架构的神经网络模型，根据人声干声音频数据集作为训练数据，训练该模型中的底层模块；通过该编码器提取出目标人声音频文件的音色特征；将编码器提取的目标人声音频文件的音色特征与训练数据中的特征进行融合；根据预处理后的待替换人声音频文件，通过该模型进行音色替换；将替换后的音频特征通过解码器转换为音频输出。该方法实现对人声音色的高精度识别和自然替换。

专利类型：发明专利

申请/专利号：CN202410460158.0

申请日期：2024-04-16

公开/公告号：CN118447863A

公开/公告日：2024-08-05

主分类号：G10L21/013(2013.01)

申请/专利权人:江南大学

发明/设计人:丁浩晗;王龙;刘记龙;孙耀;陈明焌;孙阳;崔晓晖

主申请人地址:214000 江苏省无锡市滨湖区蠡湖大道1800号

专利代理机构:无锡承果知识产权代理有限公司

代理人:宋伟丽

国别省市代码:江苏;32

权利要求：

1.一种人声音色替换方法，其特征在于，包括以下步骤：获取训练所用人声音频数据集、目标人声音频文件与待替换的人声音频文件，训练所用人声音频数据集为人声干声音频数据集；对目标人声音频文件与待替换的人声音频文件进行预处理，得到统一化的音频数据；构建并训练基于编码器-解码器架构的神经网络模型，根据人声干声音频数据集作为训练数据，训练基于编码器-解码器架构的神经网络模型中的底层模块；根据预处理后的目标人声音频文件，通过基于编码器-解码器架构的神经网络模型的编码器提取出目标人声音频文件的音色特征；将编码器提取的目标人声音频文件的音色特征与训练数据中的特征进行融合；根据预处理后的待替换人声音频文件，通过基于编码器-解码器架构的神经网络模型进行音色替换；将替换后的音频特征通过基于编码器-解码器架构的神经网络模型的解码器转换为音频输出。 2.根据权利要求1所述的方法，其特征在于，所述人声干声音频数据集包括专业演唱技巧、音调准确、节奏分明和声音清晰的音频特征。 3.根据权利要求1或2所述的方法，其特征在于，所述对目标人声音频文件进行预处理包括：去噪、音量和响度匹配处理、归一化和特征标准化处理。 4.根据权利要求1或2所述的方法，其特征在于，所述基于编码器-解码器架构的神经网络模型的训练过程采用无监督学习方法。 5.根据权利要求1所述的方法，其特征在于，所述基于编码器-解码器架构的神经网络模型包括：Contentvec人声信息模块、RMVPE音高信息提取模块和DiffSinger底层模块；所述基于编码器-解码器架构的神经网络模型，用于捕捉音频特征和音色替换；所述Contentvec人声信息模块，提取预处理好的目标人声音频中的人声音色转化为特征向量作为输出传递给DiffSinger底层模型用作下一步处理；所述RMVPE音高信息，提取模块采用深度U-Net直接提取有效的隐藏特征，提取预处理好的目标人声音频中的人声演唱音高转化为特征向量作为输出传递给DiffSinger底层模块用作下一步处理；所述DiffSinger底层模块，训练好的的底层模块利用自身取得的参数对声音进行良好建模与推理，接收由Contentvec人声信息提取板块与RMVPE音高信息提取板块处理后得到的特征信息，然后将其与自身从原始样本中得到的音色特征进行融合，再通过基于SVS声学模型的编码器进行高质量重建，把融合后的特征信息转变为Mel频谱图训练目标，再转换为音频输出。 6.根据权利要求5所述的方法，其特征在于，所述Contentvec人声信息模块，包括Pretrained HuBERT模型，k-means聚类算法，Teacher Label Generator引导标签生成器，Speech Rep Network语义表示神经网络和Predictor预测器。 7.根据权利要求5所述的方法，其特征在于，所述RMVPE音高信息提取模型包括，Encoder layers编码器，Skip hidden feature filters跳过层，Intermediate layers中间层和Decoder layers解码器。 8.根据权利要求5所述的方法，其特征在于，所述DiffSinger底层模块包括Encoder编码器、Step Embedding步骤嵌入模块、Auxiliary Decoder辅助解码器、Denoiser去噪器和Boundary Predictor边界预测器。 9.根据权利要求1所述的方法，其特征在于，该方法还包括编码器的处理过程：编码器模块将梅尔尺度频谱图转换为期望的梅尔频率倒谱系数，编码器输出可以表示为： e＝E(DCT(X)) 其中，E代表编码器模块，e代表编码器的输出结果，X代表梅尔尺度频谱图；DCT代表将梅尔尺度频谱图转换为梅尔频率倒谱系数的过程；解码器预测80维度梅尔尺度频谱图，使用编码器输出、说话者嵌入以及音高信息；解码器的输出计算如下： X′＝D(e，s，p) 其中，X′代表解码器的输出，D表示模型的解码器部分，e代表编码器的输出结果，s表示说话者嵌入向量，p表示经过线性插值后的对数域基频；在推理阶段，源音高被缩放到目标说话者的声音范围内，之后发送到解码器模块，如下所示： p＝psrc×(Mtp/Msp) 其中，psrc是源语音的音高，Mtp和Msp分别是所有目标说话者和输入源语音的音高的平均值；优化的目标包括自我重构损失Lrecon和内容一致性损失Lconsist，总损失Ltotal可以计算为： Ltotal＝Lrecon+λLconsist 其中，λ是一个权重因子，Lrecon是输入梅尔尺度频谱图X和重构的梅尔尺度频谱图X′之间的L1损失，Lconsist是从重构的梅尔尺度频谱图X′提取的内容信息应与输入梅尔尺度频谱图X的内容信息相同。 10.一种人声音色替换系统，用于实现权利要求1所述的方法，其特征在于，所述系统包括：音频获取模块：用于获取训练所用人声音频数据集、目标人声音频文件与待替换的人声音频文件，训练所用人声音频数据集为人声干声音频数据集；音频预处理模块：用于对目标人声音频文件与待替换的人声音频文件进行预处理，得到统一化的音频数据；模型训练模块：用于构建并训练基于编码器-解码器架构的神经网络模型，根据人声干声音频数据集作为训练数据，训练基于编码器-解码器架构的神经网络模型中的底层模块；特征提取模块：用于将预处理后的目标人声音频文件通过基于编码器-解码器架构的神经网络模型进行特征提取；特征融合模块：用于将基于编码器-解码器架构的神经网络模型的编码器提取的特征与训练数据中的特征进行融合；音色替换模块：用于将预处理后的待替换人声音频文件通过基于编码器-解码器架构的神经网络模型进行音色替换；音频输出模块：用于将替换后的音频特征通过基于编码器-解码器架构的神经网络模型的解码器转换为音频输出。

专利专题