10.11896/j.issn.1002-137X.2017.02.042
基于BTM和K-means的微博话题检测
近年来,微博等社交网络的发展给人们的沟通交流提供了方便.由于每条微博都限定在140字以内,因此产生了大量的短文本信息.从短文本中发现话题日渐成为一项重要的课题.传统的话题模型(如概率潜在语义分析(PLSA)、潜在狄利克雷分配(LDA)等)在处理短文本方面都面临着严重的数据稀疏问题.另外,当数据集比较集中并且话题文档间的差别较明显时,K-means聚类算法能够聚类出有区分度的话题.引入BTM话题模型来处理微博数据这样的短文本,以缓解数据稀疏的问题.同时,整合了K-means聚类算法来对BTM模型所发现的话题进行聚类.在新浪微博短文本集上进行的实验证明了此方法发现话题的有效性.
短文本、话题模型、话题发现、K-means聚类
44
TP393.092;TP391.1(计算技术、计算机技术)
地区科学基金项目:基于统计机器翻译和自动文摘的查询扩展研究61363045;云南省自然科学基金重点项目2013FA130;科技部中青年科技创新领军人才项目2014HE001
2017-04-10(万方平台首次上网日期,不代表论文的发表时间)
共6页
257-261,274