基于改进的Porter Stemmer词干提取与核方法的垃圾邮件过滤算法
统计学习方法现已大量应用于垃圾邮件识别,其中表现突出的包括贝叶斯过滤器、支持向量机等.近年来,为应对日益严重的垃圾邮件问题,提出诸多改进算法或创新思路.通过改进Porter Stemmer并使之适用于垃圾邮件过滤,从而充分提取文本的有效特征,摒弃冗余信息,加强了过滤效果;将改进方法的Porter Stemmer与原方法分别应用于线性核、高斯核、多项式核支持向量机以及员叶斯过滤器,对比实验结果可知,错误率分别下降了63.7%,63.1%,61.3%和11.4%,证明了改进方法的显著效果;另外,实验结果证明SVM过滤器显著优于贝叶斯过滤器,且能更大程度体现改进方法的优势;最后,给出多种定量评价和语义角度的分析,启发采用用户个性化定制的过滤器.
垃圾邮件、SVM、核方法、SMO算法、Porter Stemmer
44
TP181(自动化基础理论)
国家自然科学基金61272338部分资助
2017-12-27(万方平台首次上网日期,不代表论文的发表时间)
共8页
61-67,79