10.3969/j.issn.1003-6059.2012.03.004
基于隐主题分析和文本聚类的微博客中新闻话题的发现
提出一种在大规模微博客短文本数据集上发现新闻话题的方法.利用隐主题分析技术,解决短文本相似度度量的问题.在每个时间窗口内,根据新闻的特点选取出最有可能谈论新闻事件的微博客文本,然后用两层的K均值和层次聚类的混合聚类方法,对这个时间窗口内的那些最有可能谈论新闻事件的微博文本进行聚类,从而检测出新闻话题.此方法能较好地解决微博客短文本的数据稀疏性及数据量巨大的问题.实验证明该算法的有效性.
微博客、短文本、隐主题模型、话题发现、混合聚类
25
TP3(计算技术、计算机技术)
2012-10-29(万方平台首次上网日期,不代表论文的发表时间)
共6页
382-387