一种基于多音区的语音检测方法、相关装置及存储介质

引用

摘要：

本申请公开了一种基于多音区的语音检测方法，该方法应用于人工智能领域，本申请提供的语音检测方法包括：获取N个音区内每个音区所对应的音区信息；根据每个音区所对应的音区信息，生成每个音区所对应的控制信号；采用每个音区所对应的控制信号，对每个音区所对应的语音输入信号进行处理，得到每个音区所对应的语音输出信号；根据每个音区所对应的语音输出信号，生成语音检测结果。本申请还公开了一种语音检测装置以及存储介质。本申请可基于多个音区并行处理来自不同方向的语音信号，在多声源的场景下，通过控制信号对不同方向上的语音信号进行保留或者抑制，从而能够实时分离和增强每个用户的语音，由此提升语音检测的准确度。

专利类型：发明专利

申请/专利号：CN202010732649.8

申请日期：2020-07-27

公开/公告号：CN111833899A

公开/公告日：2020-10-27

主分类号：G10L21/028(2013.01)

申请/专利权人:腾讯科技(深圳)有限公司

发明/设计人:郑脊萌;陈联武;黎韦伟;段志毅;于蒙;苏丹;姜开宇

主申请人地址:518057 广东省深圳市南山区高新区科技中一路腾讯大厦35层

专利代理机构:深圳市深佳知识产权代理事务所(普通合伙)

代理人:李杭

国别省市代码:广东;44

权利要求：

1.一种基于多音区的语音检测方法，其特征在于，包括：获取N个音区内每个音区所对应的音区信息，其中，所述音区信息包括音区标识、指向角度以及用户信息，所述音区标识用于标识音区，所述指向角度用于指示所述音区的中心角度，所述用户信息用于指示所述音区内的用户存留情况，所述N为大于1的整数；根据所述每个音区所对应的音区信息，生成所述每个音区所对应的控制信号，其中，所述控制信号用于对语音输入信号进行抑制处理或保留处理，所述控制信号与所述音区具有一一对应的关系；采用所述每个音区所对应的控制信号，对所述每个音区所对应的语音输入信号进行处理，得到所述每个音区所对应的语音输出信号，其中，所述控制信号、所述语音输入信号以及所述语音输出信号具有一一对应的关系；根据所述每个音区所对应的语音输出信号，生成语音检测结果。 2.根据权利要求1所述的语音检测方法，其特征在于，所述获取N个音区内每个音区所对应的音区信息，包括：对所述N个音区内的所述每个音区进行检测，得到所述每个音区所对应的用户检测结果；根据所述每个音区所对应的用户检测结果确定所述每个音区所对应的用户信息；根据所述每个音区所对应的用户检测结果确定所述每个音区所对应的唇部运动信息；获取所述每个音区所对应的音区标识以及所述每个音区所对应的指向角度；根据所述每个音区所对应的用户信息、所述每个音区所对应的唇部运动信息、所述每个音区所对应的音区标识以及所述每个音区所对应的指向角度，生成所述每个音区所对应的音区信息。 3.根据权利要求2所述的语音检测方法，其特征在于，所述根据所述每个音区所对应的用户检测结果确定所述每个音区所对应的用户信息，包括：针对于所述N个音区中的任意一个音区，若所述用户检测结果为音区内存在可识别用户，则将第一身份标识确定为用户信息；针对于所述N个音区中的任意一个音区，若所述用户检测结果为音区内不存在用户，则将第二身份标识确定为用户信息；针对于所述N个音区中的任意一个音区，若所述用户检测结果为音区内存在未知用户，则将第三身份标识确定为用户信息；所述根据所述每个音区所对应的用户检测结果确定所述每个音区所对应的唇部运动信息，包括：针对于所述N个音区中的任意一个音区，若所述用户检测结果为音区内存在具有唇部运动的用户，则将所述第一运动标识确定为唇部运动信息；针对于所述N个音区中的任意一个音区，若所述用户检测结果为音区内存在用户，且所述用户不具有唇部运动，则将所述第二运动标识确定为唇部运动信息；针对于所述N个音区中的任意一个音区，若所述用户检测结果为音区内不存在用户，则将所述第三运动标识确定为唇部运动信息。 4.根据权利要求1所述的语音检测方法，其特征在于，所述根据所述每个音区所对应的音区信息，生成所述每个音区所对应的控制信号，包括：针对于所述N个音区中的任意一个音区，若所述用户信息用于指示音区内不存在用户，则生成第一控制信号，其中，所述第一控制信号属于所述控制信号，所述第一控制信号用于对语音输入信号进行抑制处理；针对于所述N个音区中的任意一个音区，若所述用户信息用于指示音区内存在用户，则生成第二控制信号，其中，所述第二控制信号属于所述控制信号，所述第二控制信号用于对语音输入信号进行保留处理。 5.根据权利要求2所述的语音检测方法，其特征在于，所述根据所述每个音区所对应的音区信息，生成所述每个音区所对应的控制信号，包括：针对于所述N个音区中的任意一个音区，若所述用户信息用于指示音区内不存在用户，则生成第一控制信号，其中，所述第一控制信号属于所述控制信号，所述第一控制信号用于对语音输入信号进行抑制处理；针对于所述N个音区中的任意一个音区，若所述用户信息用于指示音区内存在用户，且所述用户不具有唇部运动，则生成所述第一控制信号；针对于所述N个音区中的任意一个音区，若所述用户信息用于指示音区内存在用户，且所述用户具有唇部运动，则生成第二控制信号，其中，所述第二控制信号属于所述控制信号，所述第二控制信号用于对语音输入信号进行保留处理；针对于所述N个音区中的任意一个音区，若所述用户信息用于指示音区内存在用户，且未知所述用户的唇部运动情况，则根据原始音频信号生成所述第一控制信号或所述第二控制信号。 6.根据权利要求1所述的语音检测方法，其特征在于，所述根据所述每个音区所对应的音区信息，生成所述每个音区所对应的控制信号，包括：根据所述每个音区所对应的音区信息，采用预设算法生成所述每个音区所对应的控制信号，其中，所述预设算法为自适应波束形成算法、盲源分离算法或基于深度学习的语音分离算法；所述采用所述每个音区所对应的控制信号，对所述每个音区所对应的语音输入信号进行处理，得到所述每个音区所对应的语音输出信号，包括：若所述预设算法为所述自适应波束形成算法，则根据所述每个音区所对应的控制信号，采用所述自适应波束形成算法对所述每个音区所对应的语音输入信号进行处理，得到所述每个音区所对应的语音输出信号；若所述预设算法为所述盲源分离算法，则根据所述每个音区所对应的控制信号，采用所述盲源分离算法对所述每个音区所对应的语音输入信号进行处理，得到所述每个音区所对应的语音输出信号；若所述预设算法为所述基于深度学习的语音分离算法，则根据所述每个音区所对应的控制信号，采用所述基于深度学习的语音分离算法对所述每个音区所对应的语音输入信号进行处理，得到所述每个音区所对应的语音输出信号。 7.根据权利要求1所述的语音检测方法，其特征在于，所述根据所述每个音区所对应的语音输出信号，生成语音检测结果，包括：根据所述每个音区所对应的语音输出信号，确定所述每个音区所对应的信号功率，其中，所述信号功率为所述语音输出信号在时频点上的信号功率；根据所述每个音区所对应的信号功率，确定所述每个音区所对应的估计信噪比；根据所述每个音区所对应的估计信噪比，确定所述每个音区所对应的输出信号加权值，其中，所述输出信号加权值为所述语音输出信号在时频点上的加权结果；根据所述每个音区所对应的输出信号加权值以及所述每个音区所对应的语音输出信号，确定所述每个音区所对应的目标语音输出信号；根据所述每个音区所对应的目标语音输出信号，确定所述每个音区所对应的语音检测结果。 8.根据权利要求7所述的语音检测方法，其特征在于，所述根据所述每个音区所对应的输出信号加权值以及所述每个音区所对应的语音输出信号，确定所述每个音区所对应的目标语音输出信号，包括：所述根据所述每个音区所对应的输出信号加权值以及所述每个音区所对应的语音输出信号，确定所述每个音区所对应的待处理语音输出信号；对所述每个音区所对应的待处理语音输出信号进行降噪处理，得到所述每个音区所对应的目标语音输出信号。 9.根据权利要求8所述的语音检测方法，其特征在于，所述根据所述每个音区所对应的语音输出信号，生成语音检测结果，包括：针对于所述N个音区中的任意一个音区，若所述目标语音输出信号满足人声匹配条件，则生成第一语音检测结果，其中，所述第一语音检测结果属于所述语音检测结果，所述第一语音检测结果表示所述目标语音输出信号为人声信号；针对于所述N个音区中的任意一个音区，若所述目标语音输出信号不满足人声匹配条件，则生成第二语音检测结果，其中，所述第二语音检测结果属于所述语音检测结果，所述第二语音检测结果表示所述目标语音输出信号为噪声信号。 10.根据权利要求1至9中任一项所述的语音检测方法，其特征在于，所述根据所述每个音区所对应的语音输出信号，生成语音检测结果之后，所述方法还包括：若存在M个音区所对应的语音检测结果均为第一语音检测结果，则根据所述M个音区中每个音区所对应的语音输出信号，从所述M个音区中确定至少一个目标音区，其中，所述第一语音检测结果表示所述语音输出信号为人声信号，所述M个音区属于所述N个音区，所述M为大于或等于1，且小于或等于所述N的整数；将所述至少一个目标音区所对应的语音输出信号传输至通话方。 11.根据权利要求1至9中任一项所述的语音检测方法，其特征在于，所述根据所述每个音区所对应的语音输出信号，生成语音检测结果之后，所述方法还包括：若存在M个音区所对应的语音检测结果均为第一语音检测结果，则根据所述M个音区中每个音区所对应的语音输出信号，从所述M个音区中确定至少一个目标音区，其中，所述第一语音检测结果表示所述语音输出信号为人声信号，所述M个音区属于所述N个音区，所述M为大于或等于1，且小于或等于所述N的整数；针对于所述每个目标音区，对所述目标音区所对应的语音输出信号进行语义识别，得到语义识别结果；根据所述每个目标音区所对应的语义识别结果，生成对话响应信息。 12.根据权利要求1至9中任一项所述的语音检测方法，其特征在于，所述根据所述每个音区所对应的语音输出信号，生成语音检测结果之后，所述方法还包括：若存在M个音区所对应的语音检测结果均为第一语音检测结果，则根据所述M个音区中每个音区所对应的语音输出信号，从所述M个音区中确定至少一个目标音区，其中，所述第一语音检测结果表示所述语音输出信号为人声信号，所述M个音区属于所述N个音区，所述M为大于或等于1，且小于或等于所述N的整数；针对于所述每个目标音区，对所述目标音区所对应的语音输出信号进行切分处理，得到待识别音频数据；针对于所述每个目标音区，对所述目标音区所对应的待识别音频数据进行语音识别，得到语音识别结果；根据所述每个目标音区所对应的语音识别结果，生成文本记录信息，其中，所述文本记录信息包括翻译文本以及会议记录文本中的至少一种。 13.一种语音检测装置，其特征在于，包括：获取模块，用于获取N个音区内每个音区所对应的音区信息，其中，所述音区信息包括音区标识、指向角度以及用户信息，所述音区标识用于标识音区，所述指向角度用于指示所述音区的中心角度，所述用户信息用于指示所述音区内的用户存留情况，所述N为大于1的整数；生成模块，用于根据所述每个音区所对应的音区信息，生成所述每个音区所对应的控制信号，其中，所述控制信号用于对语音输入信号进行抑制处理或保留处理，所述控制信号与所述音区具有一一对应的关系；处理模块，用于采用所述每个音区所对应的控制信号，对所述每个音区所对应的语音输入信号进行处理，得到所述每个音区所对应的语音输出信号，其中，所述控制信号、所述语音输入信号以及所述语音输出信号具有一一对应的关系；所述生成模块，还用于根据所述每个音区所对应的语音输出信号，生成语音检测结果。 14.一种计算机设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；其中，所述存储器用于存储程序；所述处理器用于执行所述存储器中的程序，所述处理器用于根据所述程序代码中的指令执行权利要求1至12中任一项所述的方法；所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。 15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至12中任一项所述的语音检测方法。

专利专题