10.3969/j.issn.1000-3428.2006.17.021
基于词频的权值计算在邮件过滤算法中的应用
基于文本分类的过滤方法是目前解决垃圾邮件危机的主要手段,但仍然缺乏规范化的模式和方法以及较高检索性能的过滤机制.该文提出了借助邮件特征域的思想解决上述问题,介绍了特征词与特征域的概念,从利用类间相关评估函数对训练语料进行分析入手,构建特征词典.分析了邮件特征域在邮件主题表达力方面的重要作用,给出了基于特征域词频TF的权值计算方法,并改进了传统的文本相似度计算概率模型.通过实验加以验证,说明提出的方法在邮件过滤的查全率、查准率等几个性能评价指标上,比传统的Rocchio方法有了明显改善.
邮件过滤、特征词、特征域、词频、权值计算
32
TP393(计算技术、计算机技术)
教育部高校骨干教师资助计划
2006-10-23(万方平台首次上网日期,不代表论文的发表时间)
共4页
60-62,65