一种音频数据处理方法、装置、设备及可读存储介质

引用

摘要：

本申请实施例公开了一种音频数据处理方法、装置、设备及可读存储介质，该方法包括：获取目标文本数据，将目标文本数据对应的文本序列输入音频合成模型，通过音频合成模型输出目标文本数据对应的人声合成音频；获取人声合成音频的音频质量评估值，将人声合成音频的音频质量评估值作为目标文本数据的质量评估标准值；质量评估标准值用于确定针对目标文本数据的待评测朗读音频的质量评测结果。采用本申请，可以降低朗读音频的阈值选取成本。

专利类型：发明专利

申请/专利号：CN202010953505.5

申请日期：2020-09-11

公开/公告号：CN111968678A

公开/公告日：2020-11-20

主分类号：G10L25/60(2013.01)

申请/专利权人:腾讯科技(深圳)有限公司

发明/设计人:黄羿衡;田晋川

主申请人地址:518057 广东省深圳市南山区高新区科技中一路腾讯大厦35层

专利代理机构:广州三环专利商标代理有限公司

代理人:熊永强%杜维

国别省市代码:广东;44

权利要求：

1.一种音频数据处理方法，其特征在于，包括：获取目标文本数据，将所述目标文本数据对应的文本序列输入音频合成模型，通过所述音频合成模型输出所述目标文本数据对应的人声合成音频；所述音频合成模型是通过划分结果对样本音频合成模型进行调整所得到的；所述划分结果是指通过所述样本音频合成模型对标签数据分布进行划分所得到的结果；所述标签数据分布为第一质量评估标签与第二质量评估标签的数据分布，所述第一质量评估标签为样本文本数据对应的朗读音频正样本的音频质量评估值，所述第二质量评估标签为所述样本文本数据对应的朗读音频负样本的音频质量评估值；获取所述人声合成音频的音频质量评估值，将所述人声合成音频的音频质量评估值作为所述目标文本数据的质量评估标准值；所述质量评估标准值用于确定针对所述目标文本数据的待评测朗读音频的质量评测结果。 2.根据权利要求1所述的方法，其特征在于，所述获取所述人声合成音频的音频质量评估值，包括：获取发声字典；所述发声字典包括文本单词与音素序列之间的音素映射关系；通过所述发声字典中所述文本单词与音素序列之间的音素映射关系，确定所述目标文本数据对应的目标音素序列；根据所述目标音素序列，确定所述人声合成音频的音频质量评估值。 3.根据权利要求2所述的方法，其特征在于，所述根据所述目标音素序列，确定所述人声合成音频的音频质量评估值，包括：通过音频评估模型，获取所述目标音素序列中每个音素对应的音素状态有向序列；获取所述人声合成音频对应的音频特征，将所述音频特征输入所述音频评估模型；所述音频特征中包括至少两个音频帧的音频帧特征；在所述音频评估模型中，根据所述音素状态有向序列确定每个所述音频帧特征分别对应的音素状态转移序列；将每个所述音频帧特征分别对应的音素状态转移序列进行顺序组合，得到所述人声合成音频对应的音素状态转移序列；通过所述音频评估模型输出所述人声合成音频对应的音素状态转移序列的序列评估值，将所述序列评估值作为所述人声合成音频的音频质量评估值。 4.根据权利要求3所述的方法，其特征在于，所述至少两个音频帧的音频帧特征包括音频帧特征Si以及音频帧特征Sj；所述通过所述音频评估模型输出所述人声合成音频对应的音素状态转移序列的序列评估值，包括：获取所述音频帧特征Si对应的音素状态转移序列的质量评估值，以及所述音频帧特征Sj对应的音素状态转移序列的质量评估值；将所述音频帧特征Si对应的音素状态转移序列的质量评估值，与所述音频帧特征Sj对应的音素状态转移序列的质量评估值进行相加，得到质量评估运算值；获取所述音频帧特征Si与所述音频帧特征Sj对应的特征数量；根据所述质量评估运算值以及所述特征数量，确定所述人声合成音频对应的音素状态转移序列的序列评估值。 5.根据权利要求1所述的方法，其特征在在于，所述方法还包括：获取至少两个样本文本数据，将所述至少两个样本文本数据输入样本音频合成模型，通过所述样本音频合成模型输出所述至少两个样本文本数据分别对应的样本人声合成音频；获取所述至少两个样本文本数据分别对应的朗读音频正样本以及朗读音频负样本，获取所述朗读音频正样本对应的音频质量评估值，将所述朗读音频正样本对应的音频质量评估值作为第一质量评估标签；获取所述朗读音频负样本对应的音频质量评估值，将所述朗读音频负样本对应的音频质量评估值作为第二质量评估标签；获取所述样本人声合成音频的样本音频质量评估值，根据所述样本音频质量评估值对所述第一质量评估标签与第二质量评估标签的数据分布进行划分，根据划分结果对所述样本音频合成模型进行调整，得到所述音频合成模型。 6.根据权利要求5所述的方法，其特征在于，所述至少两个样本文本数据包括样本文本数据Ki与样本文本数据Kj；所述获取所述样本人声合成音频的样本音频质量评估值，根据所述样本音频质量评估值对所述第一质量评估标签与第二质量评估标签进行划分，根据划分结果对所述样本音频合成模型进行调整，得到所述音频合成模型，包括：获取样本人声合成音频Ti对应的样本音频质量评估值Mi；所述样本人声合成音频Ti为所述样本文本数据Ki对应的样本人声合成音频；获取样本人声合成音频Tj对应的样本音频质量评估值Mj；所述样本人声合成音频Tj为所述样本文本数据Kj对应的样本人声合成音频；在所述第一质量评估标签与第二质量评估标签的数据分布中，获取所述样本音频质量评估值Mi对应的第一坐标位置，以及所述样本音频质量评估值Mj对应的第二坐标位置；根据所述第一坐标位置与所述第二坐标位置，确定所述样本音频质量评估值Mi与所述样本音频质量评估值Mj所组成的分界线；按照所述分界线对所述第一质量评估标签与第二质量评估标签的数据分布进行划分，根据划分结果对所述样本音频合成模型进行调整，得到所述音频合成模型。 7.根据权利要求6所述的方法，其特征在于，所述按照所述分界线对所述第一质量评估标签与第二质量评估标签的数据分布进行划分，根据划分结果对所述样本音频合成模型进行调整，得到所述音频合成模型，包括：按照所述分界线将所述第一质量评估标签与第二质量评估标签的数据分布进行划分，得到第一划分区域以及第二划分区域；所述第一划分区域对应的期望划分标签为所述第一质量评估标签，所述第二划分区域对应的期望划分标签为所述第二质量评估标签；若所述第一划分区域中包含所述第二质量评估标签，且所述第二划分区域中包含所述第一质量评估标签，则获取所述第一划分区域中包含的所述第二质量评估标签的数量，以及所述第二划分区域中包含的所述第一质量评估标签的数量；在所述第一划分区域中包含的所述第二质量评估标签的数量大于第一阈值，且所述第二划分区域中包含的所述第一质量评估标签的数量大于第二阈值时，对所述样本音频合成模型的模型参数进行调整，得到所述音频合成模型。 8.根据权利要求7所述的方法，其特征在于，所述方法还包括：将所述至少两个样本文本数据输入至所述音频合成模型，通过所述音频合成模型输出所述至少两个样本文本数据分别对应的人声合成音频；获取所述每个样本文本数据分别对应的人声合成音频的音频质量评估值，将所述每个样本文本数据分别对应的人声合成音频的音频质量评估值，作为所述样本文本数据对应的样本质量评估标准值；获取初始标准容错值，根据所述样本质量评估标准值、所述第一质量评估标签以及所述第二质量评估标签，对所述初始标准容错值进行调整，得到目标标准容错值；所述目标标准容错值用于结合所述目标文本数据的质量评估标准值，确定针对所述目标文本数据的待评测朗读音频的质量评测结果。 9.根据权利要求8所述的方法，其特征在于，所述根据所述样本质量评估标准值、所述第一质量评估标签以及所述第二质量评估标签，对所述初始标准容错值进行调整，得到目标标准容错值，包括：将所述样本质量评估标准值与所述初始标准容错值进行相加，得到样本更新质量评估标准值；在所述第一质量评估标签中，确定小于所述样本更新质量评估标准值的第一质量评估标签的第一标签数量；在所述第二质量评估标签中，确定小于所述样本更新质量评估标准值的第二质量评估标签的第二标签数量；确定所述第一标签数量与所述第二标签数量之间的数量差值，若所述数量差值大于差值阈值，则对所述初始标准容错值进行调整，得到目标标准容错值。 10.根据权利要求9所述的方法，其特征在于，所述方法还包括：获取针对所述目标文本数据的待评测朗读音频，获取所述待评测朗读音频的音频质量评估值；根据所述待评测朗读音频的音频质量评估值以及所述质量评估标准值，确定所述待评测朗读音频的质量评测结果。 11.根据权利要求10所述的方法，其特征在于，所述根据所述待评测朗读音频的音频质量评估值以及所述质量评估标准值，确定所述待评测朗读音频的质量评测结果，包括：将所述质量评估标准值与所述目标标准容错值进行相加，得到更新质量评估标准值；将所述待评测朗读音频的音频质量评估值与所述更新质量评估标准值进行匹配，若所述待评测朗读音频的音频质量评估值大于所述更新质量评估标准值，则确定所述待评测朗读音频为优质音频；若所述待评测朗读音频的音频质量评估值小于所述更新质量评估标准值，则确定所述待评测朗读音频为劣质音频。 12.一种音频数据处理装置，其特征在于，包括：合成音频获取模块，用于获取目标文本数据，将所述目标文本数据对应的文本序列输入音频合成模型，通过所述音频合成模型输出所述目标文本数据对应的人声合成音频；所述音频合成模型是通过学习划分第一质量评估标签与第二质量评估标签的数据分布所训练得到，所述第一质量评估标签为样本文本数据对应的朗读音频正样本的音频质量评估值，所述第二质量评估标签为所述样本文本数据对应的朗读音频负样本的音频质量评估值；标准值确定模块，用于获取所述人声合成音频的音频质量评估值，将所述人声合成音频的音频质量评估值作为所述目标文本数据的质量评估标准值；所述质量评估标准值用于确定针对所述目标文本数据的待评测朗读音频的质量评测结果。 13.一种计算机设备，其特征在于，包括：处理器、存储器以及网络接口；所述处理器与所述存储器、所述网络接口相连，其中，所述网络接口用于提供网络通信功能，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行权利要求1-11任一项所述的方法。 14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行权利要求1-11任一项所述的方法。

专利专题