10.11959/j.issn.2096-109x.2022016
基于softmax激活变换的对抗防御方法
深度学习广泛应用于图像处理、自然语言处理、网络挖掘等各个领域并取得良好效果,但其容易受到对抗攻击、存在安全漏洞的问题引起广泛关注.目前已有一些有效的防御方法,包括对抗训练、数据变化、模型增强等方法.但是,依然存在一些问题,如提前已知攻击方法与对抗样本才能实现有效防御、面向黑盒攻击的防御能力差、以牺牲部分正常样本的处理性能为代价、防御性能无法验证等.因此,提出可验证的、对抗样本不依赖的防御方法是关键.提出了 softmax激活变换防御(SAT,softmax activation transformation),这是一种针对黑盒攻击的轻量级的快速防御.SAT不参与模型的训练,在推理阶段对目标模型的输出概率进行隐私保护加固并重新激活,通过softmax激活变换与深度模型防御的连接定义,证明通过softmax函数的变换后能实现概率信息的隐私保护从而防御黑盒攻击.SAT的实现不依赖对抗攻击方法与对抗样本,不仅避免了制作大量对抗样本的负担,也实现了攻击的事前防御.通过理论证明SAT的激活具有单调性,从而保证其防御过程中正常样本的识别准确率.在激活过程中,提出可变的softmax激活函数变换系数保护策略,在给定范围内随机选择隐私保护变换系数实现动态防御.最重要的一点,SAT是一种可验证的防御,能够基于概率信息隐私保护和softmax激活变换推导其防御的有效性和可靠性.为了评估SAT的有效性,在MNIST、CIFAR10和ImageNet数据集上进行了针对9种黑盒攻击的防御实验,令所有攻击方法的平均攻击成功率从87.06%降低为5.94%,与多种先进黑盒攻击防御方法比较,验证了所提方法可以达到最优防御性能.
深度学习、对抗防御、可验证、攻击无关
8
TP181(自动化基础理论)
国家自然科学基金;信息系统安全技术重点实验室基金
2022-05-12(万方平台首次上网日期,不代表论文的发表时间)
共16页
48-63