基于SVD的深度学习模型对抗鲁棒性研究

引用

摘要：

对抗攻击的出现对于深度神经网络(DNN)在现实场景中的大规模部署产生了巨大的威胁,尤其是在与安全相关的领域.目前已有的大多数防御方法都基于启发式假设,缺少对模型对抗鲁棒性的分析.如何提升 DNN 的对抗鲁棒性,并提升鲁棒性的可解释性和可信度,成为人工智能安全领域的重要一环.文中提出从奇异值分布的角度分析模型的对抗鲁棒性.研究发现,模型在对抗性环境下鲁棒性的提升伴随着更加平滑的奇异值分布.通过进一步分析表明,平滑的奇异值分布意味着模型的分类置信度来源更加多样,从而也具有更高的对抗鲁棒性.基于此分析,进一步提出了基于奇异值抑制 SVS(Singular Value Suppress)的对抗训练方法.实验结果表明,该方法进一步提高了模型在对抗性环境下的鲁棒性,在面对强力白盒攻击方法PGD(Project Gradient Descent)时,在CIFAR10 和SVHN数据集上分别能达到 55.3%和 54.51%的精度,超过了目前最具有代表性的对抗训练方法.

关键词：深度学习、对抗防御、对抗训练、对抗鲁棒性、奇异值分解

所属期刊栏目：50

分类号：TP391(计算技术、计算机技术)

在线出版日期：2023-10-13（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：362-368

英文信息展示

期刊专题