DOI：10.3969/j.issn.1003-0077.2011.01.007

基于LDA模型的博客垃圾评论发现

引用

摘要：

Blog(博客)作为一种新兴的网络媒体,在很大程度上增强了互联网的开放性,Blog已经成为互联网上的主要信息源之一,这也使得Blog空间中的垃圾评论成倍增长,因此如何识别垃圾评论成为面临的重要问题.该文首先借鉴处理垃圾邮件的方法,针对Blog本身的特点,使用规则初步过滤垃圾评论,然后对剩余评论,利用LatentDirichlet Allocation(LDA)这种能够提取文本隐含主题的产生式模型,对博客中的博文进行主题提取,并结合主题信息进行判断,从而识别Blog空间的垃圾评论.通过实验验证,该方法可以发现大多数垃圾评论,实验取得了较好的结果,使Blog信息更加准确、有效的为用户使用.

关键词：Blog、博文、LDA、主题、垃圾评论

所属期刊栏目：25

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金资助项目60673039,60973068;国家社科基金资助项目08BTQ025;国家863高科技计划资助项目2006AA01Z151;教育部留学回国人员科研启动基金和高等学校博士学科点专项科研基金资助项目20090041110002

在线出版日期：2011-06-03（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：41-47

英文信息展示

期刊专题