一种语音合成方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

一种语音合成方法

引用
本发明涉及一种语音合成方法,它包括如下步骤,首先文本特征提取和声学特征提取,其次构建编码器,通过编码器输出编码序列;第三引入位置敏感注意力机制,计算注意力权重;第四构建解码器,解码器的输出与注意力上下文向量拼接在一起,投影成一个标量后传递给激活函数确定预测是否结束;最后解码器的输出经过后处理网络转化成线性声谱图,Griffin‑Lim算法将线性声谱图还原成语音波形输出。本发明将注意力上下文向量与编码器输出编码序列拼接在一起,使前一个解码过程后的累积注意权重被当作一个附加特征,使得模型在沿着输入序列前进时保持一致性,减少了解码时可能出现的子序列遗漏或重复等问题,提高了最后合成语音的准确性。

发明专利

CN202011374257.5

2020-11-30

CN112489616A

2021-03-12

G10L13/027(2013.01)

国网重庆市电力公司物资分公司

邓努波;巫俊洁;邓燕晶;陈丽娟;张丽娟;张建华;黄嫄;向洪伟;郭强;程洁;张流畅

400020 重庆市渝北区青枫北路20号

重庆晟轩知识产权代理事务所(普通合伙)

王海凤

重庆;50

1.一种语音合成方法,其特征在于,包括如下步骤: S10:文本特征提取和声学特征提取; 文本特征提取模块首先对输入文本数据做字符嵌入,即使用固定维度大小的向量来对文本字符进行表征,然后依次通过Pre-Net、CBHG两个子网络,得到文本特征数据; 声学特征提取:使用梅尔频谱和线性频谱进行,首先对语音数据进行预加重处理,将原始音频信号通过一个高通滤波器得到预加重后的语音数据,然后进行短时傅里叶变换得到线性谱; S20:对提取的文本特征数据与声学特征进行融合,具体包括如下步骤: a)构建编码器,编码器使用Tacotron框架中的编码器,S10中得到的文本特征数据输入编码器中,编码器输出编码序列; b)构建一个位置敏感注意力机制,所述位置敏感注意力机制的位置特征用32个长度为31的1维卷积核卷积得出,所述a)输出的编码序列和位置特征投影到128维隐层表征后,得到出注意力权重,即注意力上下文向量; c)构建解码器,所述解码器是一个自回归的循环神经网络,它将编码器输出的编码序列预测输出声谱图,一次预测一帧,上一步预测出的频谱帧首先被传入一个每层由256个隐藏ReLU单元组成的双层全连接的预处理网络pre-net; pre-net的输出和注意力上下文向量拼接在一起,传给一个两层堆叠的由1024个单元组成的单向神经网络,所述神经网络的输出再次和注意力上下文向量拼接在一起,然后经过一个线性变换投影来预测目标频谱帧; 预测的所述目标频谱帧经过一个5层卷积网络来预测一个残差叠加到卷积前的频谱帧上,网络的每层由512个5×1卷积核和一个批标准化处理组成,除了最后一层卷积,每层的批标准化处理都后接一个tanh激活函数; 并行于频谱帧的预测,解码器的输出与注意力上下文向量拼接在一起,投影成一个标量后传递给sigmoid激活函数,来预测输出序列是否已经完成的概率; 将该概率值大于或等于预设的结束阈值时,表示预测结束,进行下一步; d)后网络和波形合成,后处理网络由CBHG模块和全连接层组成,解码器的输出经过后处理网络转化成线性声谱图,Griffin-Lim算法将线性声谱图还原成语音波形输出。 2.如权利要求1所述的语音合成方法,其特征在于:所述S10中声学特征提取的具体方法为: 1)将原始音频信号通过一个高通滤波器得到预加重后的语音数据,采用公式(1): H(Z)=1-μ·z-1 (1); 其中,H为语音采样值,Z表示不同时刻,1表示当前时刻的采样值,z-1表示上一时刻的采样值,μ为预加重系数; 2)然后公式(1)得到的语音数据进行短时傅里叶变换得到线性谱,如公式(2): 其中z(t)为源信号,z(t)=H(Z),g(t)为窗函数,f为线性频谱的频率; 3)用梅尔滤波器组处理线性频谱得到梅尔频谱,如公式(3): 其中,f为线性频谱的频率。 3.如权利要求1所述的语音合成方法,其特征在于:所述S20中的编码器由Pre-net预处理网络和CBHG模块构成,CBHG模块依次由一维卷积滤波器组、残差连接、多层高速公路网络highway network和双向门控循环单元GRU网络组成。 4.如权利要求1所述的语音合成方法,其特征在于:所述S20中的构建位置敏感注意力机制后解码器的输出计算过程如下: 位置敏感注意力机制的能量计算如公式(4): 其中,si是第i时刻解码器循环神经网络的隐状态,hj是编码器的第j个输出,fi,j表示对i时刻前累加注意力权重的卷积输出,b是偏置值,初始为0向量,va、W、V和U表示不同网络层的权重矩阵,表示va的转置; 卷积输出fi,j来自累加注意力权重的卷积,F为卷积核,如公式(5)和(6);
相关文献
评论
法律状态详情>>
2021-03-12公开
2021-03-12公开
2021-03-12公开
2021-03-12公开
相关作者
相关机构