10.3969/j.issn.1002-1965.2017.05.020
基于大数据技术的微博舆情快速自聚类方法研究
[目的/意义]针对海量的微博舆情信息及微博在网络舆论场中的重要作用,如何快速、准确地获取微博舆情,是提升网络舆情实时监测及分析能力的关键课题之一.目前已能以较高的准确度获取微博舆情,但仍存在舆情获取耗时长问题,为较有效地解决该问题,提出一种基于大数据技术的微博舆情快速自聚类方法.[方法/过程]该方法首先利用大数据技术抓取和处理海量的微博舆情信息,而后根据构建的微博文本相似度速算模型和文本自主聚类模型快速自主聚类微博舆情.文本相似度速算模型通过两文本间同名的特征词数与其特征词数量较小值的比值来度量文本相似度;而文本自主聚类模型以一个主题为聚类起始,自主自适应扩展聚类主题,并将文本相似度大于设定阈值的文本直接聚为一类.[结果/结论]实验结果表明:提出的微博舆情快速自聚类方法能快速、准确地获取微博舆情,且具有较低的舆情误报率和漏报率,可为网络舆情实时监测及分析能力的提升提供一定的方法支持.
微博舆情、大数据技术、文本相似度、快速自聚类、特征词
36
G202(信息与传播理论)
教育部人文社会科学研究项目"基于大数据分析的在线社会网络舆情挖掘及风险管控研究"15YJC870004;湖南省哲学社会科学基金项目"网络环境下社会舆情危机事件的识别及评价策略研究"13YBA302
2017-06-27(万方平台首次上网日期,不代表论文的发表时间)
共5页
113-117