10.3969/j.issn.1001-3695.2013.09.009
基于速度增长的微博热点话题发现
在微博热点话题发现中,由于微博文本短、词量少、用词不规范等特征,使得传统的热点话题检测方法力不从心.针对这一问题,提出了基于速度增长的微博热点话题发现方法.首先把经过预处理的微博按等数量窗口划分,统计每个窗口内各词语的词频,并表示成时间二元组序列;然后通过计算每相邻两个窗口的个词语的增长斜率来发现增长速度快的词语;再通过计算与该词语有关的用户的增长速度和微博条数的增长速度来确定该词语是否是热点主题词;最后通过热点主题词聚类产生热点话题.通过实验验证了该方法的可行性.实验结果表明,该方法在一定程度上提高了检测效率,降低了漏检率和误检率,可以有效地及时发现微博热点话题.
增长斜率、增长速度、时间二元组序列、热点发现
30
TP391.3(计算技术、计算机技术)
国家自然科学基金资助项目60873247;山东省自然科学基金资助项目ZB2009GZ007,ZR2011FM030;国家社科基金资助项目12BXW040;公安部科技创新计划资助项目2011YYCXSDST057
2013-10-21(万方平台首次上网日期,不代表论文的发表时间)
共4页
2598-2601