一种混合语音信号的处理方法及装置

引用

摘要：

本申请适用于人工智能中的语音处理的技术领域，提供了一种混合语音信号的处理方法及系统，所述处理方法包括：获取混合语音信号对应的多个第一听觉片段；在多个所述第一听觉片段中，选择一个符合预设条件的所述第一听觉片段，作为核心片段；根据所述核心片段的基音周期和每个所述第一听觉片段的片段参数，将核心片段与除去所述核心片段的剩余第一听觉片段匹配，得到目标声源的目标听觉片段，所述片段参数包括音色和梅尔频率倒谱系数。通过上述方式实现，在混合语音信号中，分别根据目标声源的基音周期以及片段参数，匹配目标声源的目标听觉片段。提高了匹配目标听觉片段的精准度。

专利类型：发明专利

申请/专利号：CN202010877506.6

申请日期：2020-08-27

公开/公告号：CN111968668A

公开/公告日：2020-11-20

主分类号：G10L21/0272(2013.01)

申请/专利权人:深圳壹账通智能科技有限公司

发明/设计人:张誉怀

主申请人地址:518000 广东省深圳市前海深港合作区前湾一路1号A栋201室

专利代理机构:深圳中一联合知识产权代理有限公司

代理人:张全文

国别省市代码:广东;44

权利要求：

1.一种混合语音信号的处理方法，其特征在于，所述方法包括：获取混合语音信号对应的多个第一听觉片段，其中，所述第一听觉片段是指由多个时频单元组成的片段；在多个所述第一听觉片段中，选择一个符合预设条件的所述第一听觉片段，作为核心片段；根据所述核心片段的基音周期和每个所述第一听觉片段的片段参数，将核心片段与除去所述核心片段的剩余第一听觉片段匹配，得到目标声源的目标听觉片段，所述片段参数包括音色和梅尔频率倒谱系数。 2.如权利要求1所述的处理方法，其特征在于，所述根据所述核心片段的基音周期和每个所述第一听觉片段的片段参数，将核心片段与除去所述核心片段的剩余第一听觉片段匹配，得到目标声源的目标听觉片段，包括：获取所述核心片段的基音周期；根据所述基音周期，将所述核心片段与所述剩余第一听觉片段匹配，得到所述核心片段对应的一个或多个第二听觉片段，其中，所述第二听觉片段是指由多个时频单元组成的片段；获取所述核心片段和所述第二听觉片段的片段参数；根据所述片段参数，将所述核心片段与所述第二听觉片段匹配，得到所述目标声源的目标听觉片段。 3.如权利要求2所述的处理方法，其特征在于，所述根据所述片段参数，将所述核心片段与所述第二听觉片段匹配，得到所述目标声源的目标听觉片段，包括：获取所述核心片段对应的第一片段参数以及所述第一片段参数对应的第一预设权重；获取每个所述第二听觉片段对应的第二片段参数以及所述第二片段参数对应的第二预设权重；计算每个所述第一片段参数与每个所述第一片段参数对应的第一预设权重的第一乘积；计算所获得的多个所述第一乘积之间的和，得到第一数值；计算每个所述第二片段参数与每个所述第二片段参数对应的第二预设权重的第二乘积；计算所获得的多个所述第二乘积之间的和，得到第二数值；计算所述第一数值和所述第二数值之间的差值；将差值小于第一阈值的所述第二听觉片段，作为所述目标听觉片段。 4.如权利要求1所述的处理方法，其特征在于，所述获取混合语音信号对应的多个第一听觉片段，包括：将所述混合语音信号进行滤波处理，得到多个时频单元；提取多个所述时频单元的听觉特征，所述听觉特征包括短时连续性特征、通道互相关性特征以及能量特征；根据所述短时连续性特征、所述通道互相关性特征以及所述能量特征，将所述时频单元组成多个所述第一听觉片段。 5.如权利要求4所述的处理方法，其特征在于，在所述根据所述短时连续性特征、所述通道互相关性特征以及所述能量特征，将所述时频单元组成多个所述第一听觉片段之后，包括：获取多个所述第一听觉片段的基频；剔除多个所述第一听觉片段中，基频超过第二阈值的所述第一听觉片段。 6.如权利要求1所述的处理方法，其特征在于，所述预设条件包括预存的目标声源的基音周期。 7.如权利要求1所述的处理方法，其特征在于，在所述根据所述核心片段的基音周期和每个所述第一听觉片段的片段参数，将核心片段与除去所述核心片段的剩余第一听觉片段匹配，得到目标声源的目标听觉片段之后，还包括：将目标声源的所述目标听觉片段合成，得到目标声源的听觉流；将所述听觉流进行时域转换，得到目标声源的语音信号。 8.一种混合语音信号的处理装置，其特征在于，所述装置包括：获取单元，用于获取混合语音信号对应的多个第一听觉片段，其中，所述第一听觉片段是指由多个时频单元组成的片段；判断单元，用于在多个所述第一听觉片段中，选择一个符合预设条件的所述第一听觉片段，作为核心片段；匹配单元，用于根据所述核心片段的基音周期和每个所述第一听觉片段的片段参数，将核心片段与除去所述核心片段的剩余第一听觉片段匹配，得到目标声源的目标听觉片段，所述片段参数包括音色和梅尔频率倒谱系数。 9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。 10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。

专利专题