语音分离方法和语音分离装置

引用

摘要：

本申请提供了一种语音分离方法和语音分离装置，该语音分离方法包括：获取目标语音，目标语音的结束时间为当前时间，且目标语音的时长等于预定时间；将目标语音切分为多个目标语音片段；将多个目标语音片段输入语音数据库；将多个目标语音片段输入分离模型进行分类，得到各说话人的语音片段集合，分离模型包括至少一个声纹特征模块，声纹特征模块与说话人一一对应，分离模型至少重新建立两次，每次建立时根据当前的语音数据库建立，且任意两次建立的分离模型为根据不同的语音数据库建立的。上述方法通过重建进行修正，以确保语音片段集合中的目标语音片段为同一个说话人的语音，提高了语音分离的准确率。

专利类型：发明专利

申请/专利号：CN202010628957.6

申请日期：2020-07-02

公开/公告号：CN111785291A

公开/公告日：2020-10-16

主分类号：G10L21/0272(2013.01)

申请/专利权人:北京捷通华声科技股份有限公司

发明/设计人:杨剑宇;李健;武卫东

主申请人地址:100193 北京市海淀区东北旺西路8号中关村软件园2号楼A座一层2101

专利代理机构:北京康信知识产权代理有限责任公司

代理人:霍文娟

国别省市代码:北京;11

权利要求：

1.一种语音分离方法，其特征在于，包括：获取目标语音，所述目标语音的结束时间为当前时间，且所述目标语音的时长等于预定时间；将所述目标语音切分为多个目标语音片段；将多个所述目标语音片段输入语音数据库；将多个所述目标语音片段输入分离模型进行分类，得到各说话人的语音片段集合，所述语音片段集合包括至少一个所述目标语音片段，所述分离模型包括至少一个声纹特征模块，所述声纹特征模块与所述说话人一一对应，所述分离模型至少重新建立两次，每次建立时根据当前的所述语音数据库建立，且任意两次建立的所述分离模型为根据不同的所述语音数据库建立的。 2.根据权利要求1所述的方法，其特征在于，所述分离模型的建立满足以下之一：所述分离模型的第N次建立的时间和第N+1次建立的时间的间隔为预定时间间隔、所述分离模型的第N次建立时的所述语音数据库中的所述目标语音片段的数量和第N+1次建立时的所述语音数据库中的所述目标语音片段的数量的差为预定数量。 3.根据权利要求2所述的方法，其特征在于，所述预定时间间隔为相邻两次获取所述目标语音的时间间隔。 4.根据权利要求1所述的方法，其特征在于，建立所述分离模型的过程，包括：对当前的所述语音数据库中的所述目标语音片段进行特征提取，得到多个声纹特征，一个所述目标语音片段对应一个所述声纹特征；将多个所述声纹特征进行聚类分析，得到至少一个类中心，一种所述声纹特征对应一个所述类中心；根据所述类中心建立对应的声纹特征模块，至少一个所述声纹特征模块构成所述分离模型。 5.根据权利要求1所述的方法，其特征在于，将多个所述目标语音片段输入分离模型进行分类，得到各所述说话人的语音片段集合，包括：对多个所述目标语音片段进行特征提取，得到多个声纹特征，一个所述目标语音片段对应一个所述声纹特征；根据所述声纹特征确定所述目标语音片段对应的声纹特征模块；根据所述声纹特征模块与所述说话人的对应关系，确定各所述说话人的语音片段集合。 6.根据权利要求1所述的方法，其特征在于，在建立所述分离模型之后，在将多个所述目标语音片段输入分离模型进行分类之前，所述方法还包括：将已知的说话人标识和对应的所述声纹特征输入所述分离模型；根据所述已知的说话人的声纹特征确定所述分离模型中对应的所述声纹特征模块；将所述已知的说话人标识输入对应的所述声纹特征模块，得到第一声纹特征模块，剩余的所述声纹特征模块为第二声纹特征模块。 7.根据权利要求6所述的方法，其特征在于，在得到各所述说话人的语音片段集合之后，所述方法还包括：将所述语音片段集合和所述说话人标识进行匹配。 8.根据权利要求7所述的方法，其特征在于，将所述语音片段集合和所述说话人标识进行匹配，包括：在所述语音片段集合对应的声纹特征模块为所述第一声纹特征模块的情况下，将所述语音片段集合匹配第一说话人标识，所述第一说话人标识为所述第一声纹特征模块对应的所述说话人标识；在所述语音片段集合对应的声纹特征模块为所述第二声纹特征模块的情况下，将所述语音片段集合匹配第二说话人标识，所述第二说话人标识为未知说话人的标识。 9.根据权利要求8所述的方法，其特征在于，在将所述语音片段集合和所述说话人标识进行匹配之后，所述方法还包括：将所述语音片段集合中的所述目标语音片段进行语音识别，得到所述目标语音片段对应的语义信息；对所述语音片段集合中的所述目标语音片段进行特征提取，得到所述目标语音片段对应的音频段标识，所述音频段标识包括时间戳或顺序编号；将各所述目标语音片段的语义信息按照所述音频段标识的顺序进行展示，并为各所述目标语音片段的语义信息匹配对应的所述第一说话人标识或者所述第二说话人标识。 10.一种语音分离装置，其特征在于，包括：获取单元，用于获取目标语音，所述目标语音的结束时间为当前时间，且所述目标语音的时长等于预定时间；第一处理单元，用于将所述目标语音切分为多个目标语音片段；输入单元，用于将多个所述目标语音片段输入语音数据库；分类单元，用于将多个所述目标语音片段输入分离模型进行分类，得到各说话人的语音片段集合，所述语音片段集合包括至少一个所述目标语音片段，所述分离模型包括至少一个声纹特征模块，所述声纹特征模块与所述说话人一一对应，所述分离模型至少重新建立两次，每次建立时根据当前的所述语音数据库建立，且任意两次建立的所述分离模型为根据不同的所述语音数据库建立的。

专利专题