佛乐的人声合成方法、装置、设备及存储介质

引用

摘要：

本发明涉及人工智能技术领域，公开了一种佛乐的人声合成方法、装置、设备及存储介质。该方法通过利用音乐轨道抓取算法，提取乐谱信息中的乐理数据、歌词和歌词中每个字在乐理数据中的位置信息，基于歌词查询预设的佛学知识词典，将歌词转换为拼音序列，识别拼音序列中每个字的拼音的音节，并根据乐理数据，确定每个音节的人声发音，得到歌词对应的声学特征序列，通过声码合成器将声学特征序列合成与乐谱信息对应的佛乐音频，基于拼音的音节来对佛乐的乐谱信息进行人声的转换，并进行合成，采用该种方式进行人声的合成，其产生的佛乐音频音高和气息都较为稳定，提升了用户的听觉体验，以及提高可人声合成效率。

专利类型：发明专利

申请/专利号：CN202110285838.X

申请日期：2021-03-17

公开/公告号：CN113053355A

公开/公告日：2021-06-29

主分类号：G10L13/04(2013.01)

申请/专利权人:平安科技(深圳)有限公司

发明/设计人:蒋慧军

主申请人地址:518033 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼

专利代理机构:北京市京大律师事务所

代理人:姚维

国别省市代码:广东;44

权利要求：

1.一种佛乐的人声合成方法，其特征在于，所述佛乐的人声合成方法包括：获取待合成佛乐的乐谱信息；利用音乐轨道抓取算法，提取所述乐谱信息中的乐理数据、歌词和所述歌词中每个字在乐理数据中的位置信息；在预设的佛学知识词典中查询与所述歌词匹配的拼音，并按照所述歌词将查询到的拼音转换为拼音序列；识别所述拼音序列中每个字的拼音的音节，并根据所述乐理数据，确定每个音节的人声发音，得到所述歌词对应的声学特征序列；通过声码合成器将所述声学特征序列合成为与所述乐谱信息对应的佛乐音频。 2.根据权利要求1所述的佛乐的人声合成方法，其特征在于，所述识别所述拼音序列中每个字的拼音的音节包括：将所述拼音序列与预设的拼音表进行匹配，识别出所述拼音序列中的声母和韵母，并对所述声母和韵母分别进行标记，得到识别标志；利用分词算法，按照所述识别标志对标识有识别标志的拼音序列进行分切，得到音节序列。 3.根据权利要求2所述的佛乐的人声合成方法，其特征在于，在所述利用分词算法，按照所述识别标志对标识有识别标志的拼音序列进行分切，得到音节序列之后，还包括：识别所述音节序列中韵母的音调，并结合所述声母生成音调序列；利用预设的ID字典为音调序列中的声母和韵母配置单独的数字ID，生成ID序列。 4.根据权利要求3所述的佛乐的人声合成方法，其特征在于，所述根据所述乐理数据，确定每个音节的人声发音，得到所述歌词对应的声学特征序列包括：根据所述音调序列中每个音节的位置信息，查询所述位置信息对应的音节在所述乐理数据中的持续时间；利用预设的长度控制器对所述音调序列中音节的持续时间的长度进行调整，得到持续时间序列；根据所述韵母的音调和所述韵母在所述乐理数据中的音阶，生成所述韵母的音乐的声学特征；在所述拼音序列中所有的韵母均转换成声学特征后，将所有的声学特征按照所述拼音序列的排序进行拼接，得到声学特征序列，其中，所述声学特征序列为MIDI格式的高音数据文件。 5.根据权利要求4所述的佛乐的人声合成方法，其特征在于，在所述根据所述乐理数据，确定每个音节的人声发音，得到所述歌词对应的声学特征序列之后，还包括：将所述ID序列、所述持续时间序列和所述声学特征序列，通过相加的方式进行首尾拼接，得到佛乐特征序列；将所述佛乐特征序列输入至预设的编-解码器中进行位置编码和解码处理，得到梅尔谱。 6.根据权利要求5所述的佛乐的人声合成方法，其特征在于，所述通过声码合成器将所述声学特征序列合成为与所述乐谱信息对应的佛乐音频包括：将所述梅尔谱输入至预设的声码合成器中，所述声码合成器对所述梅尔谱进行音频轨道和人声轨道的合成，得到与所述乐谱信息对应的佛乐音频。 7.根据权利要求5所述的佛乐的人声合成方法，其特征在于，在所述将所述佛乐特征序列输入至预设的编-解码器中进行位置编码和解码处理，得到梅尔谱之后，还包括：将所述乐谱信息输入至所述编-解码器中进行编解码处理，得到隐藏状态信息；根据所述隐藏状态信息，利用所述长度控制器将所述ID序列、所述持续时间序列和所述声学特征序列的长度调整至于所述梅尔谱的长度相同。 8.一种佛乐的人声合成装置，其特征在于，所述佛乐的人声合成装置包括：获取模块，用于获取待合成佛乐的乐谱信息；提取模块，用于利用音乐轨道抓取算法，提取所述乐谱信息中的乐理数据、歌词和所述歌词中每个字在乐理数据中的位置信息；查询模块，用于基于所述歌词，查询预设的佛学知识词典，将所述歌词转换为拼音序列；识别模块，用于识别所述拼音序列中每个字的拼音的音节，并根据所述乐理数据，确定每个音节的人声发音，得到所述歌词对应的声学特征序列；合成模块，用于通过声码合成器将所述声学特征序列合成为与所述乐谱信息对应的佛乐音频。 9.一种佛乐的人声合成设备，其特征在于，所述佛乐的人声合成设备包括：存储器和至少一个处理器，所述存储器中存储有计算机程序，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述计算机程序，以使得所述佛乐的人声合成设备执行如权利要求1-7中任一项所述的佛乐的人声合成方法。 10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的佛乐的人声合成方法。

专利专题