语音处理方法、装置、电子设备和计算机可读介质

引用

摘要：

本公开的实施例公开了语音处理方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括：将待处理语音分割成至少一个语音片段，其中，上述语音片段是同一声源的一段语音起始到语音结束的片段；基于上述至少一个语音片段的聚类结果，生成至少一个第一语音；以上过程可以对目标语音进行一定精度的语音分割，为以下生成第二语音奠定了基础。对上述至少一个第一语音中的每个第一语音进行提特征提取，得到每个上述第一语音对应的声纹特征矢量；基于上述声纹特征矢量生成第二语音，其中，第二语音是同一声源的未混合语音。通过对上述第一语音进行特征提取，以及对第一语音进一个语音分离，得到更准确的第二语音，从而提升整体语音分割效果。

专利类型：发明专利

申请/专利号：CN202010824772.2

申请日期：2020-08-17

公开/公告号：CN111968657A

公开/公告日：2020-11-20

主分类号：G10L21/007(2013.01)

申请/专利权人:北京字节跳动网络技术有限公司

发明/设计人:蔡猛

主申请人地址:100041 北京市石景山区实兴大街30号院3号楼2层B-0035房间

专利代理机构:北京卫智畅科专利代理事务所(普通合伙)

代理人:陈佳

国别省市代码:北京;11

权利要求：

1.一种语音处理方法，包括：将待处理语音分割成至少一个语音片段，其中，所述语音片段是同一声源的一段语音起始到语音结束的片段；基于所述至少一个语音片段的聚类结果，生成至少一个第一语音，其中，所述第一语音包含同一声源的至少一个语音片段；对所述至少一个第一语音中的每个第一语音进行提特征提取，得到每个所述第一语音对应的声纹特征矢量；基于所述声纹特征矢量生成第二语音，其中，所述第二语音是同一声源的未混合语音。 2.根据权利要求1所述的方法，其中，所述基于所述至少一个语音片段的聚类结果，生成至少一个第一语音，包括：将所述至少一个语音片段的聚类结果中的每个语音片段簇中的语音片段拼接成初始第一语音，生成对应所述至少一个语音片段的至少一个初始第一语音。 3.根据权利要求2所述的方法，其中，所述基于所述至少一个语音片段的聚类结果，生成至少一个第一语音，包括：对于至少一个初始第一语音中的每一个初始第一语音，对所述初始第一语音进行分帧，得到语音帧集合，将所述语音帧集合中语音帧的聚类结果中的每个语音帧簇中的语音帧拼接，生成所述至少一个第一语音。 4.根据权利要求1所述的方法，其中，所述至少一个第一语音中的每一个第一语音包括以下至少一项：未混合语音，混合语音。 5.根据权利要求1所述的方法，其中，所述第一语音对应的声纹特征矢量包括以下至少一项：未混合语音对应的声纹特征矢量，混合语音对应的声纹特征矢量。 6.根据权利要求5所述的方法，其中，所述基于所述声纹特征矢量生成第二语音，包括：将所述声纹特征矢量输入至预先训练的时域音频分离网络，生成所述第二语音，其中，所述时域音频分离网络用于根据声纹特征矢量生成目标声源的未混合语音。 7.一种语音处理装置，包括：分割单元，被配置成将待处理语音分割成至少一个语音片段，其中，所述语音片段是同一声源的一段语音起始到语音结束的片段；第一生成单元，被配置成基于所述至少一个语音片段的聚类结果，生成至少一个第一语音，其中，所述第一语音包含同一声源的至少一个语音片段；特征提取单元，被配置成对所述至少一个第一语音中的每个第一语音进行提特征提取，得到每个所述第一语音对应的声纹特征矢量；第二生成单元，被配置成基于所述声纹特征矢量生成第二语音，其中，所述第二语音是同一声源的未混合语音。 8.一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。 9.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。

专利专题