基于通用逆扰动的对抗攻击防御方法
现有研究表明深度学习模型容易受到精心设计的对抗样本攻击,从而导致模型给出错误的推理结果,引发潜在的安全威胁.已有较多有效的防御方法,其中大多数针对特定攻击方法具有较好防御效果,但由于实际应用中无法预知攻击者可能采用的攻击策略,因此提出不依赖攻击方法的通用防御方法是一个挑战.为此,提出一种基于通用逆扰动(Universal inverse perturbation,UIP)的对抗样本防御方法,通过学习原始数据集中的类相关主要特征,生成通用逆扰动,且UIP对数据样本和攻击方法都具有通用性,即一个UIP可以实现对不同攻击方法作用于整个数据集得到的所有对抗样本进行防御.此外,UIP通过强化良性样本的类相关重要特征实现对良性样本精度的无影响,且生成UIP无需对抗样本的先验知识.通过大量实验验证,表明UIP在不同数据集、不同模型中对各类攻击方法都具备显著的防御效果,且提升了模型对正常样本的分类性能.
深度学习、通用逆扰动、对抗样本、通用防御
49
D925.1;TP309;TN918.91
2023-11-13(万方平台首次上网日期,不代表论文的发表时间)
共16页
2172-2187