基于蒙特卡洛梯度估计的黑盒神经网络后门检测

引用

摘要：

现有的后门检测方法研究主要聚焦于白盒场景,然而现实中很难获得对模型的完全访问权限.为此,本文研究了基于蒙特卡洛梯度估计的黑盒神经网络后门检测方法.通过将黑盒场景下后门触发器的逆向视作零阶优化问题,提出了黑盒触发器逆向算法来检测黑盒神经网络是否被植入后门,利用重要性采样结合规范化判断标准和早停策略,进一步提出了快速黑盒后门检测算法以降低黑盒后门检测的开销.在3个流行图像数据集上的实验结果均表明提出的方法能准确区分正常模型与植入后门的模型,且可以得到有效的后门触发器.

关键词：人工智能安全、深度学习、神经网络、神经网络后门、安全审计

所属期刊栏目：69

分类号：TP309.2(计算技术、计算机技术)

资助基金：国家自然科学基金U20B2049

在线出版日期：2023-04-12（万方平台首次上网日期，不代表论文的发表时间）

页数：共11页

页码：8-18

英文信息展示

期刊专题