10.3969/j.issn.1001-6600.2009.03.032
一种用于互动型不良信息过滤的贝叶斯改进方案
信息过滤是文本挖掘领域的重要研究内容之一.针对互动型网络媒体信息(如BBS),提出一种新的信息过滤算法,该算法主要从特征提取和分类器构造两方面对Bayesian方法进行改进.在对不良信息的特征提取过程中,根据网络论坛的特征,在计算中文不良信息特征项的权重时,根据关键词出现的位置、次数以及词长等建立一个特征评估函数,并用它来替换TF-IDF公式中的TF项;同时,考虑到网络论坛中的良性信息与不良信息之间的不平衡分布,采用一种不对称的学习策略来设计Bayesian分类器.实验结果及对比分析表明,该算法具有较高的过滤准确率.
互动型网络媒体、不良信息、信息过滤
27
TP391(计算技术、计算机技术)
国家自然科学基金资助项目60773084,60603023;教育部博士点基金资助项目20070151009
2009-11-17(万方平台首次上网日期,不代表论文的发表时间)
共4页
134-137