一种基于域适应的无声语音攻击检测方法

引用

摘要：

本发明公开了一种基于域适应的无声语音攻击检测方法，所述方法包括以下步骤：步骤一，音频信号预处理；步骤二，音频特征提取；步骤三，模型搭建以及预训练；步骤四，引入SE模块；步骤五，域适应对抗训练。采用该模型即可对无声语音攻击进行检测。本发明方法可移植性好，可方便地部署于任意智能设备。无须修改麦克风电路或外设检测电路等，极大降低了生产成本，且硬件修改方案通常需要根据智能设备进行反复定制。本发明方法泛化性能好，充分解决了传统信号时频域方法面临的海豚音硬件强耦合困境。面对不同智能设备，不同语音指令，不同人声等变量影响，攻击检测成功率始终达到99％+。

专利类型：发明专利

申请/专利号：CN202110473965.2

申请日期：2021-04-29

公开/公告号：CN113192504A

公开/公告日：2021-07-30

主分类号：G10L15/22(2006.01)

申请/专利权人:浙江大学

发明/设计人:李鑫锋;徐文渊;冀晓宇;任博伦

主申请人地址:310058 浙江省杭州市西湖区余杭塘路866号

专利代理机构:杭州求是专利事务所有限公司

代理人:万尾甜%韩介梅

国别省市代码:浙江;33

权利要求：

1.一种基于域适应的无声语音攻击检测方法，其特征在于，步骤如下：步骤一，音频信号预处理，所述预处理包括语音降噪，端点检测，设置音频信号长度；步骤二，音频特征提取，对每一段语音指令提取Log Mel谱；步骤三，模型搭建以及预训练，使用至少3款手机类型的正负样本对二分类ResNet模型进行训练，得到一个用于检测无声语音指令的预训练模型；步骤四，引入SE模块以更好地表征海豚音攻击音频与正常音频的特征差异，得到优化后的预训练模型；步骤五，域适应对抗训练，基于优化后的预训练模型，采用梯度翻转层对来自新手机类型的音频信号进行对抗训练，从而获得与手机类型无关的无声语音指令的检测模型；采用该模型即可对无声语音攻击进行检测。 2.根据权利要求1所述的一种基于域适应的无声语音攻击检测方法，其特征在于，将步骤一预处理后的音频信号的音频时长设置为2s，不足2s的部分循环补全；超过2s的部分截去；设置音频每帧之间的间隔10-20ms，每帧时长25-30ms，保证前后帧重合以保持时序的关联性。 3.根据权利要求1所述的一种基于域适应的无声语音攻击检测方法，其特征在于，若音频信号采样率为16KHz，则步骤二中的Log Mel谱频域维度设为64。 4.根据权利要求1所述的一种基于域适应的无声语音攻击检测方法，其特征在于，所述的二分类ResNet模型中，ResNet卷积块使用深层网络，即对特征向量进行1X1卷积，再经过3X3卷积，最后通过1X1卷积降维。 5.根据权利要求1所述的一种基于域适应的无声语音攻击检测方法，其特征在于，步骤四中，对步骤三中输出的音频表征向量，所述的SE模块对其不同通道赋予不同的权重，具体为：对于每一输出通道”i×Wi”，均通过全局统计池化，因此每个通道由矩阵形式映射到1个标量”Hi×Wi”→”1×1”，C个通道得到C个数；再经过全连接层→ReLU激活→全连接层→Sigmoid激活得到C个”0～1”的标量，作为通道的权重。 6.根据权利要求1所述的一种基于域适应的无声语音攻击检测方法，其特征在于，在所述的域适应对抗训练过程中，将优化后的预训练模型作为特征提取的主干网络，并在其后拼接两个模型；其一为攻击检测器，是正确分类海豚音攻击或正常音频的二分类模型；另一个为域分类器，结合与主干网络相连的梯度翻转层，用于实现混淆不同音频信号对应的手机真实类型，即当前音频表征是一种与手机类型无关的本质特征。

专利专题