一种基于域适应的无声语音攻击检测方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方专利
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

专利专题

一种基于域适应的无声语音攻击检测方法

引用
本发明公开了一种基于域适应的无声语音攻击检测方法,所述方法包括以下步骤:步骤一,音频信号预处理;步骤二,音频特征提取;步骤三,模型搭建以及预训练;步骤四,引入SE模块;步骤五,域适应对抗训练。采用该模型即可对无声语音攻击进行检测。本发明方法可移植性好,可方便地部署于任意智能设备。无须修改麦克风电路或外设检测电路等,极大降低了生产成本,且硬件修改方案通常需要根据智能设备进行反复定制。本发明方法泛化性能好,充分解决了传统信号时频域方法面临的海豚音硬件强耦合困境。面对不同智能设备,不同语音指令,不同人声等变量影响,攻击检测成功率始终达到99%+。

发明专利

CN202110473965.2

2021-04-29

CN113192504A

2021-07-30

G10L15/22(2006.01)

浙江大学

李鑫锋;徐文渊;冀晓宇;任博伦

310058 浙江省杭州市西湖区余杭塘路866号

杭州求是专利事务所有限公司

万尾甜%韩介梅

浙江;33

1.一种基于域适应的无声语音攻击检测方法,其特征在于,步骤如下: 步骤一,音频信号预处理,所述预处理包括语音降噪,端点检测,设置音频信号长度; 步骤二,音频特征提取,对每一段语音指令提取Log Mel谱; 步骤三,模型搭建以及预训练,使用至少3款手机类型的正负样本对二分类ResNet模型进行训练,得到一个用于检测无声语音指令的预训练模型; 步骤四,引入SE模块以更好地表征海豚音攻击音频与正常音频的特征差异,得到优化后的预训练模型; 步骤五,域适应对抗训练,基于优化后的预训练模型,采用梯度翻转层对来自新手机类型的音频信号进行对抗训练,从而获得与手机类型无关的无声语音指令的检测模型;采用该模型即可对无声语音攻击进行检测。 2.根据权利要求1所述的一种基于域适应的无声语音攻击检测方法,其特征在于, 将步骤一预处理后的音频信号的音频时长设置为2s,不足2s的部分循环补全;超过2s的部分截去;设置音频每帧之间的间隔10-20ms,每帧时长25-30ms,保证前后帧重合以保持时序的关联性。 3.根据权利要求1所述的一种基于域适应的无声语音攻击检测方法,其特征在于,若音频信号采样率为16KHz,则步骤二中的Log Mel谱频域维度设为64。 4.根据权利要求1所述的一种基于域适应的无声语音攻击检测方法,其特征在于,所述的二分类ResNet模型中,ResNet卷积块使用深层网络,即对特征向量进行1X1卷积,再经过3X3卷积,最后通过1X1卷积降维。 5.根据权利要求1所述的一种基于域适应的无声语音攻击检测方法,其特征在于,步骤四中,对步骤三中输出的音频表征向量,所述的SE模块对其不同通道赋予不同的权重,具体为:对于每一输出通道”i×Wi”,均通过全局统计池化,因此每个通道由矩阵形式映射到1个标量”Hi×Wi”→”1×1”,C个通道得到C个数;再经过全连接层→ReLU激活→全连接层→Sigmoid激活得到C个”0~1”的标量,作为通道的权重。 6.根据权利要求1所述的一种基于域适应的无声语音攻击检测方法,其特征在于,在所述的域适应对抗训练过程中,将优化后的预训练模型作为特征提取的主干网络,并在其后拼接两个模型;其一为攻击检测器,是正确分类海豚音攻击或正常音频的二分类模型;另一个为域分类器,结合与主干网络相连的梯度翻转层,用于实现混淆不同音频信号对应的手机真实类型,即当前音频表征是一种与手机类型无关的本质特征。
相关文献
评论
法律状态详情>>
2021-07-30公开
2021-07-30公开
相关作者
相关机构