基于半监督学习的恶意URL检测方法

引用

摘要：

检测恶意URL对防御网络攻击有着重要意义.针对有监督学习需要大量有标签样本这一问题,本文采用半监督学习方式训练恶意URL检测模型,减少了为数据打标签带来的成本开销.在传统半监督学习协同训练(co-training)的基础上进行了算法改进,利用专家知识与Doc2Vec两种方法预处理的数据训练两个分类器,筛选两个分类器预测结果相同且置信度高的数据打上伪标签(pseudo-labeled)后用于分类器继续学习.实验结果表明,本文方法只用0.67％的有标签数据即可训练出检测精确度(precision)分别达到99.42％和95.23％的两个不同类型分类器,与有监督学习性能相近,比自训练与协同训练表现更优异.

关键词：恶意URL检测、半监督学习、协同训练改进算法、Doc2Vec、分类器训练

所属期刊栏目：29

资助基金：浙江省自然科学基金;浙江省大学生科技创新活动计划新苗人才计划

在线出版日期：2020-11-17（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：11-20

英文信息展示

期刊专题