基于多结构特征的垃圾博客识别研究

引用

摘要：

为解决日益严重的垃圾博客问题,对产生垃圾博客的作弊技术和相应的识别技术进行了研究.通过对大量中文垃圾博客的分析,结合对作弊者目的的研究,提出了从用户名、发帖时间间隔、博文内容、锚文本和链接地址、分类标签等博客的结构特征出发的特征提取方法.在特征提取的基础上,提出了基于多结构特征的识别方法,并建立了相应的系统模型.使用支持向量机和朴素贝叶斯模型作为分类器进行了实验,并与经典的基于内容的方法进行了对比.实验结果表明,在小的训练集上,基于多结构特征的方法正确率达到90%以上,比基于内容的方法提高了6个百分点,该方法可有效区分垃圾博客和正常博客.

关键词：中文信息处理、垃圾博客、多结构特征、朴素贝叶斯、支持向量机

所属期刊栏目：31

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金项目60775041

在线出版日期：2011-01-13（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：4932-4935

英文信息展示

期刊专题