一种中文领域网页过滤方法
鉴于互联网上各种不良网页的影响,提出了一种使用贝叶斯分类算法和领域本体过滤中文网页的方法.该方法根据正反例领域网页计算领域特征词的权重,建立领域特征词库并制作领域本体,根据正例领域网页得到本体元素权重库;使用贝叶斯分类算法得到候选网页;根据领域本体对候选网页进行语义相关度计算并进行网页过滤.该方法可以区分相同领域网页中的正反例网页并可兼顾网页过滤的实时性.通过游戏领域网页的测试,准确率和召回率均在98%以上,语义分析游戏相关网页的平均时间为1~2 s,对用户浏览网页速度的影响较小,效果令人满意.
网页过滤、网页屏蔽、语义过滤
34
TP391(计算技术、计算机技术)
2014-07-29(万方平台首次上网日期,不代表论文的发表时间)
533-536