10.13705/j.issn.1671-6841.2022167
基于多领域条件生成的语音情感转换
语音情感转换是在不改变话者声纹、语义的情况下,将一种情感语音转换成另一种情感语音的技术,本质是实现语音的风格迁移.主流的风格迁移技术有对抗生成技术(如 CycleGAN,StarGAN)和实例规一化技术(如 IN,CIN).CIN相对于 IN添加了均值方差选择性模块,具有更强的风格迁移能力.提出了将 StarGAN 和 CIN 结合的语音情感转换模型 CIN-StarGAN,将 CIN 模块嵌入到 StarGAN 生成器.在 ESD 数据集上的实验结果表明,CIN-StarGAN比基于 CycleGAN的情感转换模型收敛速度快 28%,具有较好的风格转换能力.在多领域情感转换方法上具有潜在研究价值.
语音情感转换、域转换、条件实例归一化、生成对抗网络
55
TN912.3
汉考国际科研基金项目HT-202011-374
2023-08-31(万方平台首次上网日期,不代表论文的发表时间)
共6页
67-72