基于朴素贝叶斯的伪装型垃圾网页检测
针对伪装型垃圾网页的隐藏性、欺诈性和难以检测等问题,运用二元分类方法对伪装型垃圾网页进行检测.该方法将网页分解成内容特征和链接特征,并采用朴素贝叶斯(NB)算法对伪装型垃圾网页进行分类检测.最后,将NB算法和几种常见的分类算法在同一数据集上进行测试,结果表明,朴素贝叶斯算法的综合评价F1值达到94.64%,明显高于其余几种分类算法,能够有效地检测出伪装型垃圾网页,提高网络信息检索质量.
伪装型垃圾网页检测、机器学习、分类算法、朴素贝叶斯
33
TP391.1;TP393.098;TP181(计算技术、计算机技术)
2013-08-07(万方平台首次上网日期,不代表论文的发表时间)
共3页
102-103,106