合成音模板发现方法、装置以及设备

引用

摘要：

本发明公开了一种合成音模板发现方法、装置以及设备。本发明的构思在于利用合成音模板的重复特性，先在大量语音素材之间进行发音相似度比对，从中初选出疑似合成音模板，并将筛选出的语音素材进行切割，再结合合成音模板的发音特性，对切割后的各语音段进行归类，最后依据同类中所含语音段的数量，发现所需的合成音模板。本发明为后续的合成音检测补充了可靠的合成音模板样本，省去后续由人工进行大量的标注、辨识等工作，而且通过对疑似各语音片段进行独立分析，还能够解决语料中自然语音与合成语音相混淆的问题，由此可见，本发明可以在控制成本前提下，有效提升后续合成音检测的准确度。

专利类型：发明专利

申请/专利号：CN202010621981.7

申请日期：2020-06-30

公开/公告号：CN111833842A

公开/公告日：2020-10-27

主分类号：G10L13/02(2013.01)

申请/专利权人:讯飞智元信息科技有限公司

发明/设计人:钟奥;王建社;冯祥

主申请人地址:230088 安徽省合肥市高新区望江西路666号讯飞大厦8层-10层

专利代理机构:北京维澳专利代理有限公司

代理人:王立民%金海

国别省市代码:安徽;34

权利要求：

1.一种合成音模板发现方法，其特征在于，包括：预先构建语音素材库；提取所述语音素材库中所有待处理音频的均值超矢量；基于所述均值超矢量，相互比对所述待处理音频的相似度并筛选出若干近似音频；将所述近似音频切割为多个语音片段，并基于合成语音及自然语音的声学信息以及聚类策略，对各所述语音片段进行归类；根据各类别下的所述语音片段的数量，获取合成音模板。 2.根据权利要求1所述的合成音模板发现方法，其特征在于，所述基于合成语音及自然语音的声学信息以及聚类策略，对各所述语音片段进行归类包括：基于合成语音及自然语音的声学信息预设多个音频类别；根据各所述语音片段相对各个音频类别的概率得分，确定各所述语音片段的音频类别。 3.根据权利要求2所述的合成音模板发现方法，其特征在于，所述根据各所述语音片段相对各个音频类别的概率得分，确定各所述语音片段的音频类别包括：基于各语音片段及各音频类别的均值超矢量的相似度，求取各所述语音片段相对各音频类别的先验概率；根据所述先验概率、各语音片段的均值超矢量以及预先构建的聚类模型，求取并迭代更新各语音片段的后验概率，最终确定出各语音片段所属的音频类别。 4.根据权利要求1所述的合成音模板发现方法，其特征在于，所述根据各类别下的所述语音片段的数量，获取合成音模板包括：从所述语音片段的数量大于等于预设的目标数量阈值的类别中，选取其中至少一个所述语音片段作为所述合成音模板。 5.根据权利要求1所述的合成音模板发现方法，其特征在于，所述基于所述均值超矢量，相互比对所述待处理音频的相似度并筛选出若干近似音频包括：基于预设的分库比对策略，将符合相似度标准的所述待处理音频构建混淆音频库；将所述混淆音频库内的所述待处理音频作为所述近似音频。 6.根据权利要求5所述的合成音模板发现方法，其特征在于，所述基于预设的分库比对策略，将符合相似度标准的所述待处理音频构建混淆音频库包括：根据音频时长，将所述语音素材库拆分为两个子库；两个子库中的所述待处理音频基于所述均值超矢量进行一一比对；将满足第一相似阈值的所述待处理音频构建混淆音频库；若所述混淆音频库中的音频总数超出预设的数量上限，则拆分所述混淆音频库后再次进行相互比对，并基于第二相似阈值进行筛选，以此类推直至所述混淆音频库中的音频总数小于等于所述数量上限。 7.根据权利要求1～6任一项所述的合成音模板发现方法，其特征在于，所述提取所述语音素材库中所有待处理音频的均值超矢量包括：提取所述待处理音频基于耳蜗滤波器倒谱系数的声学特征；利用所述声学特征以及预先训练的通用背景模型，估算出所述待处理音频的均值超矢量。 8.根据权利要求7所述的合成音模板发现方法，其特征在于，所述通用背景模型是基于所述声学特征及特定的联合算法训练得到的表征中性说话人的混合高斯模型。 9.一种合成音模板发现装置，其特征在于，包括：素材收集模块，用于预先构建语音素材库；均值超矢量提取模块，用于提取所述语音素材库中所有待处理音频的均值超矢量；相似音频筛选模块，用于基于所述均值超矢量，相互比对所述待处理音频的相似度并筛选出若干近似音频；分割聚类模块，用于将所述近似音频切割为多个语音片段，并基于合成语音及自然语音的声学信息以及聚类策略，对各所述语音片段进行归类；合成音模板发现模块，用于根据各类别下的所述语音片段的数量，获取合成音模板。 10.根据权利要求9所述的合成音模板发现装置，其特征在于，所述分割聚类模块包括：音频类别设定单元，用于基于合成语音及自然语音的声学信息预设多个音频类别；片段归类单元，用于根据各所述语音片段相对各个音频类别的概率得分，确定各所述语音片段的音频类别。 11.根据权利要求10所述的合成音模板发现装置，其特征在于，所述片段归类单元包括：第一聚类组件，用于基于各语音片段及各音频类别的均值超矢量的相似度，求取各所述语音片段相对各音频类别的先验概率；第二聚类组件，用于根据所述先验概率、各语音片段的均值超矢量以及预先构建的聚类模型，求取并迭代更新各语音片段的后验概率，最终确定出各语音片段所属的音频类别。 12.一种合成音模板发现设备，其特征在于，包括：一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行如权利要求1～8任一项所述的合成音模板发现方法。

专利专题