10.3969/j.issn.1673-629X.2016.06.006
基于LDA模型和多层聚类的微博话题检测
随着微博这一新兴社交媒体的广泛应用,以微博为背景的相关研究不断涌现,其中基于微博的话题检测是当前研究的热点之一。结合微博文本的相关特点,文中提出了一种基于LDA模型和多层聚类的微博话题检测方法。首先,通过LDA模型对微博数据建模并提取特征;其次,利用改进的Single-Pass聚类和层次聚类对微博数据进行聚类,从而发现热点话题。通过在大规模微博数据上进行话题检测实验,通过LDA建模比通过TF-IDF进行特征选择和权重计算效果好;改进的Single-Pass聚类能够处理第一遍Single-Pass聚类未处理的微博,提高了初步聚类的精度,并且为下一步层次聚类减少了时间;多层聚类的聚类效果在准确率、召回率和F值三方面均比单一聚类算法的聚类效果好。显然,文中的话题检测方法是可行的,也是有效的。
LDA模型、话题检测、改进的Single-Pass聚类、层次聚类
26
TP391(计算技术、计算机技术)
国家自然科学基金资助项目61370139;北京市属高等学校创新团队建设与教师职业发展计划项目IDHT20130519;北京市教委专项基金PXM2013014224000042,PXM2014014224000067
2016-07-01(万方平台首次上网日期,不代表论文的发表时间)
共7页
25-30,36