10.3969/j.issn.1003-0077.2008.06.015
基于统计特征的垃圾博客过滤
该文根据垃圾博客和正常博客在统计特征上的差异,对多种针对博客分类有效的统计特征进行了分析,提出基于博客页面统计特征的过滤方法.在Blog06数据集上的实验表明,该方法的过滤准确性达到97%,比基于词频特征的过滤方法提高了约7%,在不同规模训练集上的准确性保持在95%左右,具有更好的泛化能力.
计算机应用、中文信息处理、内容分析、垃圾博客过滤、统计特征、词频特征、泛化能力
22
TP391(计算技术、计算机技术)
国家973课题资助项目2004CB318109;国家863计划资助项目2007AA01Z441
2009-02-16(万方平台首次上网日期,不代表论文的发表时间)
共6页
86-91