10.3969/j.issn.1000-3428.2015.12.034
基于回归模型与谱聚类的微博突发话题检测方法
微博社交网络短文本具有数据规模巨大、快速传播、模态多样、质量较低等特性,导致现有传统的话题检测与跟踪技术在对其进行数据处理时面临复杂度高、特征稀疏和噪声干扰等问题.为此,提出一种在回归预测和谱聚类基础上的突发话题检测方法.该方法针对关键词词频变动趋势,基于回归模型,量化微博关键词的突发程度,从词频趋势分析的角度准确地提取出突发词集合.设计一个基于谱聚类思想的突发词聚类方法提高聚类结果的准确性.在大规模微博数据集的实验结果证明,与baseline方法相比,该方法的准确率、召回率、F值都有较大提高,在微博信息分析领域有着较好的应用前景.
微博、突发话题检测、词频分析、回归模型、谱聚类、大数据
41
TP391(计算技术、计算机技术)
国家自然科学基金资助项目“社会网络的主题演化分析与传播趋势预测研究”61472291;深圳市知识创新计划基础研究基金资助项目“基于压缩感知的社交网络主题提取与演化分析”
2016-02-29(万方平台首次上网日期,不代表论文的发表时间)
共6页
176-181