DOI：10.3969/j.issn.1000-3428.2017.03.033

基于文本加权KNN算法的中文垃圾短信过滤

引用

摘要：

针对K最近邻(KNN)算法在文本分类决策规则上由于样本重要性相同而导致分类效果不佳的问题,提出一种基于文本加权的KNN文本分类算法,并将其应用于垃圾短信的分类问题.在提取出特征词之后,考虑到特征词在文本中出现的频率对文本重要性的影响,引入第1个加权公式,同时针对垃圾短信数据集,采用关联规则算法挖掘出在垃圾短信中频繁出现的共现词组,并以此引入第2个加权公式,最后将引入的2种文本权重计算公式对每个短信文本进行复合加权处理,以区分各个训练样本对于判定隶属类别的影响程度,从而在分类决策规则上作出改进.实验结果表明,与未经过文本加权的KNN算法相比,该算法对垃圾短信和正常短信在分类准确率、召回率、F1值等指标上都有较大的提升.

关键词：垃圾过滤、关联规则、特征选择、K最近邻算法、向量空间模型

所属期刊栏目：43

分类号：TP18(自动化基础理论)

资助基金：广西可信软件重点实验室研究课题kx201106;桂林电子科技大学研究生教育创新计划项目2016YJCX64

在线出版日期：2017-04-24（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：193-199

英文信息展示

期刊专题