一种结合GMM Token配比与聚类的核心训练语音选择方法

引用

摘要：

本发明公开了结合GMM Token配比与聚类的核心训练语音选择方法，该方法通过对原始训练语音的GMM Token配比特征进行聚类，选取距离每个聚类中心较近的训练语音作为核心训练语音。通过本发明提供的核心训练语音选择方法可以选取更具代表性的核心训练语音数据，使得仅用部分训练数据所获取的模型性能优于原始训练数据对应的模型，不仅节约了训练时间和能耗，而且提升了识别性能。该方法适用于语音识别、说话人识别、伪造语音识别等语音分类场景。

专利类型：发明专利

申请/专利号：CN202110473820.2

申请日期：2021-04-29

公开/公告号：CN113192493A

公开/公告日：2021-07-30

主分类号：G10L15/06(2013.01)

申请/专利权人:浙江大学

发明/设计人:杨莹春;魏含玉;吴朝晖

主申请人地址:310013 浙江省杭州市西湖区余杭塘路866号

专利代理机构:杭州天勤知识产权代理有限公司

代理人:王琛

国别省市代码:浙江;33

权利要求：

1.一种结合GMM Token配比与聚类的核心训练语音选择方法，包括如下步骤： S1.随机选取部分训练语音进行训练获得初始模型； S2.利用所述初始模型计算所有训练语音的GMM Token配比特征； S3.利用所述GMM Token配比特征对所有训练语音进行聚类； S4.逐一计算每条训练语音到聚类中心的距离； S5.根据一定比例逐类选取距离聚类中心较近的训练语音作为核心训练语音。 2.根据权利要求1所述的核心训练语音选择方法，其特征在于：所述步骤S1的具体实现方式为：随机选择一定比例的训练语音，提取其特征数据，使用这些特征数据训练得到具有K阶高斯分量的GMM即初始模型。 3.根据权利要求2所述的核心训练语音选择方法，其特征在于：所述GMM的训练是一个有监督的优化过程，其采用最大似然准则，整个过程分为参数初始化和参数优化两部分，前者使用LBG算法实现，后者使用EM算法实现，将训练得到的GMM作为之后用于获取训练语音Token配比特征的GMM tokenizer。 4.根据权利要求1所述的核心训练语音选择方法，其特征在于：所述步骤S2的具体实现方式为：首先提取各训练语音的特征数据，然后针对特征数据的每一帧，在GMM tokenizer上计算似然得分，将得分最高的高斯分量索引序号标记作为这一帧的GMM Token，相应地，特征数据中的每一帧经过GMM tokenizer之后都将对应得到一个GMM Token，整个特征数据经过GMM tokenizer之后便可获得一组GMM Token序列；最后计算每一高斯分量索引的GMMToken数量与GMM Token总数之比即训练语音的GMM Token配比特征，计算方法为其中fi为第i个高斯分量索引的GMM Token配比，T为GMM Token总数，其大小取决于语音的特征数据长度，Ni为第i个高斯分量索引的GMM Token数量，i为自然数且1≤i≤K，K为GMM中的高斯分量总数。 5.根据权利要求1所述的核心训练语音选择方法，其特征在于：所述步骤S3的具体实现方式为：根据步骤S2获得所有训练语音的GMM Token配比特征，对训练语音进行聚类，将所有训练语音聚成M类，M为自定义大于1的自然数。 6.根据权利要求1所述的核心训练语音选择方法，其特征在于：所述步骤S4的具体实现方式为：对于任一条训练语音，根据GMM Token配比特征计算该语音到其所属类别聚类中心的距离。 7.根据权利要求1所述的核心训练语音选择方法，其特征在于：所述步骤S5的具体实现方式为：对于任一类别，将该类别中的训练语音按其与聚类中心的距离从小到大进行排序，按照一定的比例选择排名靠前的训练语音作为核心训练语音。

专利专题