基于轻量级神经网络的含噪语音性别识别方法及系统

引用

摘要：

本发明公开了一种基于轻量级神经网络的含噪语音性别识别方法及系统，包括基于纯净男女语音音频和纯噪声音频合成含噪语音；提取含噪语音的音频特征；音频特征仅包括多个BFCC特征以及部分BFCC特征的一阶时间导数和二阶时间导数，基音增益值，基频周期值，语音短时过零率；基于音频特征构建轻量级神经网络模型并进行训练；轻量级神经网络模型包括语音活度分支、降噪分支和性别分类分支；基于轻量级神经网络模型进行含噪语音性别预测；该方法在延时30ms的时间范围内搭建了含有降噪分支和男女声分类分支的轻量级神经网络模型，具有高的准确率，适用于含有未知噪声的实际应用场景。

专利类型：发明专利

申请/专利号：CN202110032437.3

申请日期：2021-01-12

公开/公告号：CN112382301A

公开/公告日：2021-02-19

主分类号：G10L17/02(2013.01)

申请/专利权人:北京快鱼电子股份公司

发明/设计人:张瑜;袁斌

主申请人地址:100093 北京市海淀区闵庄路3号清华科技园玉泉慧谷11栋

专利代理机构:北京天盾知识产权代理有限公司

代理人:张彩珍

国别省市代码:北京;11

权利要求：

1.一种基于轻量级神经网络的含噪语音性别识别方法，其特征在于，包括以下步骤： S100：基于纯净男女语音音频和纯噪声音频合成含噪语音； S200：提取所述含噪语音的音频特征；所述音频特征仅包括：多个BFCC特征以及部分BFCC特征的一阶时间导数和二阶时间导数，基音增益值，基频周期值，语音短时过零率； S300：基于所述音频特征构建轻量级神经网络模型并进行训练；所述轻量级神经网络模型包括语音活度分支、降噪分支和性别分类分支； S400：基于所述轻量级神经网络模型进行含噪语音性别预测。 2.根据权利要求1所述的含噪语音性别识别方法，其特征在于，所述步骤S200包括以下子步骤： S210：基于FFT求得含噪语音的频谱； S220：对所述频谱求BFCC得到多个BFCC特征，作为第一音频特征；分别计算所述BFCC特征的一阶时间导数和二阶时间导数，分别以所述一阶时间导数和二阶时间导数的前6个值作为第二音频特征； S230：对频谱采用梳状滤波器滤除原始音频语音谐波之间的噪声，计算频带上基音相关度的DCT倒谱，取前6个系数代表基音增益值，作为第三音频特征； S240：计算基频周期值和语音短时过零率，作为第四音频特征。 3.根据权利要求1所述的含噪语音性别识别方法，其特征在于，所述语音活度分支包括GRU层、第一层全连接层和第二层全连接层；所述降噪分支包含第一层GRU、第二层GRU和全连接层；所述性别分类分支包含GRU层和全连接层。 4.根据权利要求3所述的含噪语音性别识别方法，其特征在于，所述语音活度分支第一层全连接层的输入为含噪语音的音频特征，依次经过第一层全连接层、GRU层和第二层全连接层处理后输出语音活度值。 5.根据权利要求3所述的含噪语音性别识别方法，其特征在于，所述降噪分支第一层GRU的输入为所述语音活度分支第一层全连接层的输出和含噪语音的音频特征；所述降噪分支第二层GRU的输入为所述降噪分支第一层GRU的输出、语音活度分支GRU层的输出和含噪语音的音频特征；所述降噪分支全连接层的输入为所述降噪分支第二层GRU的输出。 6.根据权利要求3所述的含噪语音性别识别方法，其特征在于，所述性别分类分支GRU层的输入为所述语音活度分支GRU层的输出、降噪分支第二层GRU的输出和含噪语音的音频特征；所述性别分类分支全连接层的输入为所述性别分类分支GRU层的输出。 7.根据权利要求3所述的含噪语音性别识别方法，其特征在于，所述性别分类分支的全连接层采用softmax激活函数，所述语音活度分支中的GRU层和全连接层、所述降噪分支中的GRU层和全连接层以及所述性别分类分支中的GRU层均采用ReLU激活函数。 8.根据权利要求1所述的含噪语音性别识别方法，其特征在于，所述步骤S400包括以下子步骤： S410：采集音频信号； S420：将所述音频信号输入训练好的轻量级神经网络模型进行性别预测。 9.根据权利要求8所述的含噪语音性别识别方法，其特征在于，所述步骤S400中还包括在性别预测后建立缓冲帧；具体为：记录前M个历史帧的分类结果，当判别出的M+1帧的分类结果与前M个历史帧的分类结果不同时，先保持M+1帧的分类结果不变，如果M+2帧的分类结果与M+1帧的分类结果相同，则保持M+1帧和M+2帧的分类结果，如果M+2帧的分类结果与记录的前M个历史帧的分类结果相同，则将M+1帧的分类结果修改为前M个历史帧的分类结果。 10.一种基于轻量级神经网络的含噪语音性别识别系统，其特征在于，包括含噪语音合成模块、音频特征提取模块、轻量级神经网络模型构建及训练模块和性别预测模块；所述含噪语音合成模块用于将纯净男女语音音频和纯噪声音频进行混合合成含噪语音；所述音频特征提取模块用于提取所述含噪语音的音频特征；所述音频特征仅包括：多个BFCC特征以及部分BFCC特征的一阶导数和二阶导数，基音增益值，基频周期值，语音短时过零率；所述轻量级神经网络模型构建及训练模块用于基于所述音频特征构建轻量级神经网络模型并进行训练；所述轻量级神经网络模型包括语音活度分支、降噪分支和性别分类分支；所述性别预测模块用于基于所述轻量级神经网络模型进行含噪语音性别预测。

专利专题