10.3969/j.issn.1006-9348.2023.01.053
一种基于WaveNet的藏语语音合成方法
针对Griffin-Lim声码器合成语音保真度低、人工合成痕迹明显的问题,提出了一种基于WaveNet神经网络声码器的藏语语音合成方法.方法基于藏文文本特征及藏语Mel频谱,运用WaveNet的相位恢复能力实现了藏语的语音合成.先将藏文文本经字符编码转换为相应词向量,并通过卷积运算和注意力权重赋值完成文本特征提取;利用非线性变换和线性投影预测Mel频谱;利用WaveNet声码器合成藏语语音波形.实验数据表明,相对于Griffin-Lim算法合成的语音,所提方法所合成的语音效果更好.
藏语语音合成、梅尔频谱、神经网络声码器
40
TP183(自动化基础理论)
国家自然科学基金;国家自然科学基金;青海省科技项目;藏文信息处理与机器翻译重点实验室
2023-03-01(万方平台首次上网日期,不代表论文的发表时间)
共6页
295-299,538