基于全卷积网络的声音事件检测方法

引用

摘要：

本发明公开了一种基于全卷积神经网络的声音事件检测方法，主要解决现有网络存在的多音频事件检测精度低，时间复杂度高的问题。其实现方案是：1)对音频流进行梅尔倒谱特征提取得到音频流的时频特征图，并用这些时频特征图构成训练数据集；2)搭建一个自上而下由频率卷积网络、时间卷积网络和解码卷积网络组成的全卷积多音频事件检测网络；3)利用数据集对该全卷积多音频事件检测网络进行训练；4)将待检测音频流输入到训练好的全卷积多音频事件检测网络进行多音频事件检测，得到音频事件的类别和存在的起止时间。仿真结果表明，本发明比现有精度最高的网络3D‑CRNN，其精度提升了2％，运行速度提升了5倍左右，可用于安全监控。

专利类型：发明专利

申请/专利号：CN202010824598.1

申请日期：2020-08-17

公开/公告号：CN111986699A

公开/公告日：2020-11-24

主分类号：G10L25/51(2013.01)

申请/专利权人:西安电子科技大学

发明/设计人:赵光辉;张雨萌;王迎斌;石光明

主申请人地址:710071 陕西省西安市太白南路2号

专利代理机构:陕西电子工业专利中心

代理人:王品华

国别省市代码:陕西;61

权利要求：

1.一种基于全卷积神经网络的声音事件检测方法，其特征在于，包括如下： (1)对待检测音频流进行数据预处理，即从音频流中提取若干梅尔倒谱特征，每个梅尔倒谱特征表现为一张时频特征图，这些时频特征图组成数据集； (2)对预处理后得到的数据集做四次交叉验证，得到四组数据子集，每组数据子集包括75％的训练集和25％的验证集； (3)设计一个自上而下由频率卷积网络、时间卷积网络和解码卷积网络组成的全卷积多音频事件检测网络： (4)对(2)得到的四组数据子集分别进行标准化处理，并将标准化处理后的数据子集与其对应的标签作为输入样本，一起输入到(3)设计的全卷积多音频事件检测网络中，并利用标准化处理后的训练集和验证集对其进行训练，得到训练好的全卷积多音频事件检测网络； (5)将待检测音频流经过预处理后得到的时频特征图输入到训练好的全卷积多音频事件检测网络中，得到每类音频事件存在的概率值； (6)设定检测阈值Q，将(5)得到的概率值与检测阈值Q进行比较：若概率值大于Q，则认为该事件存在；若概率值小于等于Q，则认为该事件不存在，得到最终音频事件的检测结果。 2.根据权利要求1所述的方法，其特征在于，(1)中对音频流进行梅尔倒谱特征提取，实现如下： (1a)对原始音频流信号做分帧操作，每一帧长度为40ms，帧与帧之间的时间重叠率为50％； (1b)对每一帧音频先做傅里叶变换得到频谱图，再将每256帧频谱图沿时间维堆叠起来，得到一张声谱图；对所有音频帧进行此操作后，得到若干声谱图； (1c)将每张声谱图通过滤波器数量为40的梅尔标度滤波器组，变换为频率维长度为40、时间维长度为256的梅尔频谱特征； (1d)在梅尔频谱特征上做倒谱分析，得到信号的梅尔倒谱特征，该梅尔倒谱特征表现为大小为40×256的时频特征图。 3.根据权利要求1所述的方法，其特征在于，(3)中构成全卷积多音频事件检测网络的频率卷积网络、时间卷积网络和解码卷积网络，其结构分别如下：所述频率卷积网络，由自上而下连接的三个频率卷积子网络组成，每个频率卷积子网络自上而下由二维卷积层、批量标准化层和非重叠最大池化层连接组成；所述时间卷积网络，由自上而下连接的六个时间卷积子网络组成，每个时间卷积子网络自上而下由一维空洞卷积层和批量标准化层连接组成。所述解码卷积网络，由自上而下连接的上采样层和一维卷积层组成。 4.根据权利要求3所述的方法，其特征在于，所述频率卷积网络的参数如下：所述二维卷积层，使用的卷积核大小为3，步长为1，卷积核个数为64，激活函数为ReLU；所述非重叠最大池化层，池化操作只在频域进行，其中第一个频率卷积子网络中的池化层窗口大小为5，第二个和第三个频率卷积子网络中的池化层窗口大小为2。 5.根据权利要求3所述的方法，其特征在于，所述时间卷积网络中的一维空洞卷积层，使用的空洞系数为2n-1，n为空洞卷积层的层数，卷积核大小为3，步长为1，卷积核个数为32，激活函数为ReLU，dropout为0.2，不使用零填充。 6.根据权利要求3所述的方法，其特征在于，所述解码卷积网络的参数如下：所述上采样层，采用双线性插值法进行上采样，上采样后输出特征时间维长度为256；所述一维卷积层，使用的卷积核大小为3，步长为1，卷积核个数与音频事件类别数相等，为6个，激活函数为sigmiod。 7.根据权利要求1所述的方法，其特征在于，(4)中利用标准化后的训练集和验证集训练全卷积多音频事件检测网络，实现如下： (4a)将标准化后的训练集和验证集输入到(3)设计的全卷积多音频事件检测网络中，得到每类音频事件的概率值该代表第m类音频事件在第t帧中存在的可能性； (4b)损失函数选择二分类交叉熵损失函数，公式如下：其中t为当前时间帧数，T为总时间帧数，m为音频事件类别，是数据集的真实标签； (4c)根据损失函数计算全卷积多音频事件检测网络中卷积核参数的梯度值，根据得到的梯度值更新卷积核参数，完成一次训练； (4d)设定训练次数N＝1000，如果当前训练次数达到1000次，或者损失函数在训练中连续100次不变小，则训练停止，否则返回(4a)。

专利专题