10.3969/j.issn.1673-629X.2018.08.006
基于改进TFIDF算法的邮件分类技术
随着电子邮件的普及,垃圾邮件的泛滥问题也逐渐引起人们的关注,垃圾邮件分类技术的研究成为了近年来的热点课题.邮件特征选择会直接影响到分类的效率和精确度,使用TFIDF算法可以有效评估一个特征项对于邮件分类的重要程度.但在邮件分类中单纯使用TFIDF来判断一个特征是否有区分度还存在很多的不足:没有考虑到特征词在类间和类内的分布情况,低估了高频词的作用并高估了低频词的作用.对TFIDF算法进行修改,降低特例邮件中频繁出现的特征词的影响,引入了频率差,增加了在类中频繁出现的词条的权值,并减小了在类中出现频率小的词条的权值.最终将改进的TFIDF算法与传统特征提取算法进行对比.实验结果表明,改进算法可以选择出更合适的特征项集合,从而使邮件分类的效果更好.
邮件分类、区分度、特征词、权值、特征提取
28
TP391.1(计算技术、计算机技术)
国家"863"高技术发展计划项目2015AA015603;国家自然科学基金61602114
2018-09-04(万方平台首次上网日期,不代表论文的发表时间)
共5页
27-31