语音活性检测方法和装置

引用

摘要：

本发明公开一种语音活性检测方法和装置，其中，语音活性检测方法，包括：将待检测音频输入帧级别VAD系统中进行帧级别的语音活性检测，获取所述帧级别VAD系统输出的第一音频；将所述第一音频输入句子级别VAD系统中进行句子级别的语音活性检测，获取所述句子级别VAD系统输出的第二音频，并对所述第二音频进行后续处理。通过在已有的帧级别VAD系统之后附加一个句子级的VAD系统，可以实现对前一个系统判定为语音的音频进行进一步的整句级的判定，减少音频的误判定，提高了非语音段的召回率，进一步的节省了后端识别的资源。

专利类型：发明专利

申请/专利号：CN202010867436.6

申请日期：2020-08-25

公开/公告号：CN111816216A

公开/公告日：2020-10-23

主分类号：G10L25/78(2013.01)

申请/专利权人:苏州思必驰信息科技有限公司

发明/设计人:胡雪成

主申请人地址:215123 江苏省苏州市苏州工业园区新平街388号腾飞创新园14栋

专利代理机构:北京商专永信知识产权代理事务所(普通合伙)

代理人:黄谦%邓婷婷

国别省市代码:江苏;32

权利要求：

1.一种语音活性检测方法，包括：将待检测音频输入帧级别VAD系统中进行帧级别的语音活性检测，获取所述帧级别VAD系统输出的第一音频；将所述第一音频输入句子级别VAD系统中进行句子级别的语音活性检测，获取所述句子级别VAD系统输出的第二音频，并对所述第二音频进行后续处理。 2.根据权利要求1所述的方法，其中，所述将所述第一音频输入句子级别VAD系统中进行句子级别的语音活性检测包括：将所述第一音频切分成多段音频，利用所述句子级别VAD系统分别对所述多段音频进行语音活性检测；若检测到所述多段音频中任一段音频中包含语音，将所述第一音频整段输出。 3.根据权利要求1所述的方法，其中，所述帧级别VAD系统用于判断待检测音频中每一帧音频是否为语音帧，输出所述待检测音频中判定为语音帧的音频构成的第一音频；若判断所述待检测音频中不包含语音帧，则不进行后续处理。 4.根据权利要求1所述的方法，其中，所述句子级别VAD系统用于判断所述第一音频整句是否为语音，若是，则将所述第一音频输入只语音识别系统进行语音识别；若否，则不进行后续处理。 5.根据权利要求1-4中任一项所述的方法，其中，所述句子级别VAD系统为基于FSMN的模型，所述基于FSMN的模型包括特征提取层、多个离线FSMN层和DNN层。 6.根据权利要求5所述的方法，其中，所述帧级别VAD系统也为基于FSMN的模型。 7.一种语音活性检测装置，包括：第一输入检测输出模块，配置为将待检测音频输入帧级别VAD系统中进行帧级别的语音活性检测，获取所述帧级别VAD系统输出的第一音频；第二输入检测输出模块，配置为将所述第一音频输入句子级别VAD系统中进行句子级别的语音活性检测，获取所述句子级别VAD系统输出的第二音频，并对所述第二音频进行后续处理。 8.一种语音活性检测装置，还包括：切分检测模块，配置为将所述第一音频切分成多段音频，利用所述句子级别VAD系统分别对所述多段音频进行语音活性检测；输出模块，配置为若检测到所述多段音频中任一段音频中包含语音，将所述第一音频整段输出。 9.一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行权利要求1至6中任一项所述方法的步骤。 10.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6中任一项所述方法的步骤。

专利专题