一种语音合成方法、系统及计算机设备

引用

摘要：

本发明公开了一种语音合成方法，所述方法步骤如下：采集语音文件，构建语音数据库，语音数据库为同一汉字或词组不同语调的语音文件的集合；获取文本，将文本分割为若干个具有独立语义和语调的文本块，并将文本块转化为拼音序列；使语音文件与拼音序列之间产生映射关联，对语音文件进行预处理后确定语音文件的物理参数，对语音文件进行标注并导入到DCNN深度卷积网络模型中进行训练；将需要转化为语音的文本输入到DCNN深度卷积网络模型中，输出相应的声波文件。

专利类型：发明专利

申请/专利号：CN202011001647.8

申请日期：2020-09-22

公开/公告号：CN112151008A

公开/公告日：2020-12-29

主分类号：G10L13/10(2013.01)

申请/专利权人:中用科技有限公司

发明/设计人:钟生;王鹏;贾玮民

主申请人地址:230601 安徽省合肥市经济技术开发区宿松路3963号智能装备科技园E栋12层

专利代理机构:合肥天明专利事务所(普通合伙)

代理人:金凯

国别省市代码:安徽;34

权利要求：

1.一种语音合成方法，其特征在于：所述方法步骤如下：步骤一：采集语音文件，构建语音数据库，语音数据库为同一汉字或词组不同语调的语音文件的集合；步骤二：获取文本，将文本分割为若干个具有独立语义和语调的文本块，并将文本块转化为拼音序列；步骤三：使语音文件与拼音序列之间产生映射关联，对语音文件进行预处理后确定语音文件的物理参数，对语音文件进行标注并导入到DCNN深度卷积网络模型中进行训练；步骤四：将需要转化为语音的文本输入到DCNN深度卷积网络模型中，输出相应的声波文件。 2.根据权利要求1所述的语音合成方法，其特征在于：步骤二中，通过文本输入的方式获取文本，并在文本输入时检测文本的正确性。 3.根据权利要求1所述的语音合成方法，其特征在于：步骤三中，对语音文件进行标注时，通过隐马尔可夫模型标注语音文件的声母、韵母和语调。 4.根据权利要求1所述的语音合成方法，其特征在于，进行步骤三之前，先将拼音序列以TF-IDF方式进行编码，生成拼音序列向量，继而使拼音序列向量具有固定长度：拼音序列向量超过该固定长度的，对其进行截取并舍弃其末尾；拼音序列向量短于该固定长度的，在其末尾补零填充；将具有固定长度的拼音序列向量作为拼音序列的特征向量。 5.根据权利要求1所述的语音合成方法，其特征在于，进行步骤三之前，提取语音文件的MFCC向量作为语音文件的特征向量。 6.根据权利要求1所述的语音合成方法，其特征在于，步骤三中，使语音文件与拼音序列之间产生映射关联时，计算拼音序列的特征向量和语音文件的特征向量，计算上述两种特征向量之间的欧式距离，两种特征向量之间的欧式距离小于阈值时，使所述拼音序列和语音文件产生一一对应关系。 7.根据权利要求1所述的语音合成方法，其特征在于，步骤三中，语音文件的物理参数包括语音持续时间和语音音高。 8.一种语音合成系统，其特征在于，包括：语音采集模块，用于采集语音文件，构建语音数据库，语音数据库为同一汉字或词组不同语调的语音文件的集合；文本采集模块，用于获取文本，将文本分割为若干个具有独立语义和语调的文本块，并将文本块转化为拼音序列；模型生成模块，其使语音文件与拼音序列之间产生映射关联，对语音文件进行预处理后确定语音文件的物理参数，对语音文件进行标注并导入到DCNN深度卷积网络模型中进行训练；语音合成模块，其将需要转化为语音的文本输入到DCNN深度卷积网络模型中，输出相应的声波文件。 9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的语音合成方法。

专利专题