DOI：10.11772/j.issn.1001-9081.2023060854

基于自适应攻击强度的对抗训练方法

引用

摘要：

深度神经网络(DNN)易受对抗样本攻击的特性引发了人们对人工智能系统安全性和可靠性的重大关切,其中对抗训练是增强对抗鲁棒性的一种有效方式.针对现有方法使用固定的对抗样本生成策略但存在忽视对抗样本生成阶段对对抗训练重要性的问题,提出一种基于自适应攻击强度的对抗训练方法.首先,将干净样本和对抗样本输入模型得到输出;然后,计算干净样本和对抗样本模型输出的差异;最后,衡量该差异与上一时刻差异的变化情况,并自动调整对抗样本强度.对三个基准数据集的全面实验结果表明,相较于基准方法投影梯度下降的对抗训练(PGD-AT),该方法在三个基准数据集的AA(AutoAttack)攻击下鲁棒精度分别提升1.92、1.50和3.35个百分点,且所提出方法在鲁棒性和自然准确率方面优于最先进的防御方法可学习攻击策略的对抗训练(LAS-AT).此外,从数据增强角度看,该方法可以有效解决对抗训练这种特殊数据增强方式中增广效果随训练进展会不断下降的问题.

关键词：对抗训练、对抗样本、对抗防御、适应攻击强度、深度学习、图像分类、人工智能安全

所属期刊栏目：44

分类号：TP181(自动化基础理论)

在线出版日期：2024-01-31（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：94-100

英文信息展示

期刊专题