10.19363/J.cnki.cn10-1380/tn.2022.11.03
基于自定义后门的触发器样本检测方案
深度学习利用强大的特征表示和学习能力为金融、医疗等多个领域注入新的活力,但其训练过程存在安全威胁漏洞,攻击者容易通过操纵训练集或修改模型权重执行主流后门攻击:数据中毒攻击与模型中毒攻击.两类攻击所产生的后门行为十分隐蔽,后门模型可以保持干净样本的分类精度,同时对嵌入攻击者预定义触发器的样本呈现定向误分类.针对干净样本与触发器样本在拟合程度上的区别,提出一种基于自定义后门行为的触发器样本检测方案BackDetc,防御者自定义一种微小触发器并执行数据中毒攻击向模型注入自定义的后门,接着通过嵌入自定义触发器设计一种输入样本扰动机制,根据自定义触发器的透明度衡量输入样本的拟合程度,最终以干净样本的拟合程度为参照设置异常检测的阈值,进而识别触发器样本,不仅维持资源受限用户可负担的计算开销,而且降低了后门防御假设,能够部署于实际应用中,成功抵御主流后门攻击以及威胁更大的类可知后门攻击.在MNIST、CIFAR-10等分类任务中,BackDetc对数据中毒攻击与模型中毒攻击的检测成功率均高于目前的触发器样本检测方案,平均达到99.8%以上.此外,论文探究了检测假阳率对检测性能的影响,并给出了动态调整BackDetc检测效果的方法,能够以100%的检测成功率抵御所有分类任务中的主流后门攻击.最后,在CIFAR-10任务中实现类可知后门攻击并对比各类触发器样本检测方案,仅有BackDetc成功抵御此类攻击并通过调整假阳率将检测成功率提升至96.2%.
深度学习、后门攻击、自定义后门、拟合程度、触发器样本
7
TP391(计算技术、计算机技术)
江苏省自然科学基金;信息安全国家重点实验室开放基金
2022-12-22(万方平台首次上网日期,不代表论文的发表时间)
共14页
48-61