一种音频监测方法及系统

引用

摘要：

本发明公开了一种音频监测方法及系统。方法包括如下步骤：收集敏感训练数据，该数据的事件种类包含求救、哭喊、色情、枪声和吸收5种；根据事件的种类给定对应的弱标签，通过一级定位模型来获取一段音频中每一帧发生各类敏感事件的定位概率；然后根据定位概率在第一指定阈值范围下的持续时长来判断敏感事件的种类。本发明的检测方法具有检测范围广，覆盖率高，隐私性好等优点。对训练数据标签要求低，人工打标的成本低，易于实现，使用二级判定模型，可以降低虚警率。

专利类型：发明专利

申请/专利号：CN202010725473.3

申请日期：2020-07-24

公开/公告号：CN111933109A

公开/公告日：2020-11-13

主分类号：G10L15/02(2006.01)

申请/专利权人:南京烽火星空通信发展有限公司

发明/设计人:廖闻剑;陈眺;曲宝珠;王康

主申请人地址:210000 江苏省南京市建邺区云龙山路88号

专利代理机构:深圳众邦专利代理有限公司

代理人:卢香利

国别省市代码:江苏;32

权利要求：

1.一种音频监测方法，其特征在于，包括如下步骤：收集敏感训练数据，该数据的事件种类包含求救、哭喊、色情、枪声和吸收5种；根据事件的种类给定对应的弱标签，通过一级定位模型来获取一段音频中每一帧发生各类敏感事件的定位概率；根据定位概率在第一指定阈值范围下的持续时长来判断敏感事件的种类。 2.如权利要求1所述的音频监测方法，其特征在于，还包括如下步骤：通过基于循环神经网络的判别模型来完成二次判定，最后验证判别模型输出的置信度是否处于第二指定阈值范围，以输出最后的检测结果。 3.一种音频监测系统，其特征在于，包括：数据处理及特征提取模块，该模块用于：数据处理：收集用于训练的敏感事件声音数据，收集的数据的种类包含求救、哭喊、色情、枪声及吸收；其中，不同应用场景下出现概率较高的数据作为吸收类数据；训练数据只需满足每条包含一个事件种类即可，单条数据的长度在5至20秒；随机对训练数据添加环境噪声，混响，变速变调，以达到增加模型鲁棒性的效果；特征处理：预加重，以25ms为一帧，10ms为帧移保持一部分重叠的分帧，使用汉明窗以平滑输入的语音信号以及快速傅里叶变换得到频域特征，利用梅尔滤波组对信号进行滤波，得到FBank特征；在获得每一帧的特征后，为了获取时序信号的上下相关性，进行单位为5的拼帧，以降低运算的复杂度，每拼5帧后可以跳1帧进行下一段拼帧；一级定位模型及判定逻辑模块，该模块用于：定位模型：这一阶段主要由用于提取时序特征的RNN循环神经网络和聚合函数组成；使用的训练数据是弱标签数据，在定位阶段，为了让模型区分不同种类的事件，通过一种线性聚合函数，对于出现某种事件的帧概率有放大作用，其余部分具有抑制的效果；判断逻辑：在获得一条语音信号每一帧的定位概率p后，使用中值滤波来平滑事件的预测。 4.如权利要求3所述的音频监测系统，其特征在于，还包括：二级判别模型及交叉验证模块，该模块用于：判别模型：经过一级定位模型的判断后，模型会存在一部分数据误判，为了降低模型的虚警率；使用循环神经网络训练一个多对一的二级判别模型，使用和一级模型相同的训练数据，以实现并获得较高的准确率，对降低虚警率；交叉验证：一级定位模型的输出概率值在满足判定逻辑的条件下，模型将其中被定为敏感事件的音频片段切出，单独输入到二级判别模型，如果对某条数据输出的判别概率在第二阈值范围内，以最终判定该数据属于某一种敏感事件。

专利专题