基于显著区域优化的对抗样本攻击方法

引用

摘要：

在计算机视觉任务中,以卷积神经网络为基础的图像分类模型得到广泛应用,但因其自身的脆弱性容易受到对抗样本的攻击.目前的攻击方法大多会对整张图像进行攻击,产生的全局扰动影响了对抗样本的视觉质量.针对这一问题,提出一种基于显著区域优化的对抗样本攻击方法,利用显著目标检测技术为每张原始图像生成显著图,并将其二值化为显著掩模,将该掩模与对抗扰动相结合,使显著区域内的对抗扰动保留下来,实现对抗扰动的局部添加.通过引入Nadam优化算法,稳定损失函数更新方向并动态调整学习率,提高损失函数收敛速度,从而在保持较高黑盒攻击成功率的同时,有效降低对抗扰动的可察觉性.在ImageNet数据集上分别进行单模型和集成模型环境下的对抗攻击实验,并对各方法生成的对抗样本图像质量进行对比分析,结果表明,与基准方法相比,该方法在集成模型攻击中的隐蔽性指标实现了27.2%的性能提升,黑盒攻击成功率最高达到了92.7%的水平.

关键词：卷积神经网络、对抗样本、黑盒攻击、局部优化、迁移性

所属期刊栏目：49

分类号：TP391(计算技术、计算机技术)

资助基金：国家重点研发计划2017YFB0801900

在线出版日期：2023-09-25（万方平台首次上网日期，不代表论文的发表时间）

页数：共11页

页码：246-255,264

英文信息展示

期刊专题