基于原型网络的中文分类模型对抗样本生成

引用

摘要：

对抗样本生成通过在原文本中添加不易察觉的扰动使深度学习模型产生错误输出,常用于检测文本分类模型的鲁棒性.现有对抗样本生成方法多数采用黑盒或白盒攻击,在生成对抗样本的过程中需要和受害模型交互,且攻击效果依赖于受害模型的结构和性能,通用性较差.面向中文文本的对抗样本生成方法使用的变换策略过于单一,无法生成多样化的中文对抗样本.针对这些问题,提出一种基于原型网络的对抗样本生成(AEGP)方法.在全面分析汉字结构特点和人类阅读习惯的基础上,设计8种可保持语义一致的中文文本变换策略.将卷积神经网络作为编码器,构建原型网络,利用同一类别下的其他文本辅助发现所需变换的文本片段.针对选择的文本片段应用文本变换策略,生成对抗样本.实验结果表明,AEGP方法具有较好的通用性,能生成多样化的对抗样本,且相比于基线方法,分类模型在AEGP方法生成的对抗样本上的准确率下降了 9.21～32.64个百分点.

关键词：对抗样本生成、分类模型、原型网络、文本表示、变换策略

所属期刊栏目：49

分类号：TP391(计算技术、计算机技术)

资助基金：国家重点研发计划;中国科学院战略性先导科技专项;中国科学院青年创新促进会项目

在线出版日期：2023-10-11（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：54-62

英文信息展示

期刊专题