10.3979/j.issn.1673-825X.2011.01.018
一种基于主动学习和TCM-EKNN的邮件过滤方法
目前结合机器学习、文本分类的过滤方法成为研究热点.而这些过滤方法在邮件过滤时存在使用训练集数据量和表征数据的特征向量维数过多,引发"维灾难"和较大的运算量等问题.结合证据理论K近邻方法(evidence theory based K-nearest neighbors,EKNN)和直推式信度机(transductive confidence machines,TCM)算法思想,提出一种TCM-EKNN的邮件过滤方法,并且采用主动学习样本选择方法选择较少高质量的训练样本构建邮件分类器从而高效地实现垃圾邮件过滤.对比实验结果表明:相对于传统的邮件过滤方法,TCM-EKNN获得了良好的过滤效果,从而论证了TCM-EKNN有效性;并且在保证传统的邮件过滤方法同等高准确率前提下,TCM-EKNN采用主动学习方法后,极大地减少了训练样本数量,提高了过滤器性能,在各项评价指标上具有优越性.
垃圾邮件、邮件过滤、主动学习、直推式可信K近邻、证据理论
23
TP393.08(计算技术、计算机技术)
博士启动基金A2009-25;重庆邮电大学青年教师基金A2005-25
2011-04-27(万方平台首次上网日期,不代表论文的发表时间)
共6页
85-90