10.3969/j.issn.1008-3723.2017.04.007
基于Hadoop云计算平台的新浪微博数据聚类分析算法研究
近年来,随着Web2.0的兴起,互联网信息更加丰富,数据规模日益增加,传统数据挖掘技术难以满足需要.云计算为解决这一问题提出了一种新方法.本文首先对开源的云计算技术Hadoop进行介绍,然后,对分布式进行了设计.本文将聚类过程分为三个步骤,分别对TF-IDF关键词提取、LDA 模型训练和K -means 聚类过程进行MapReduce 的实现,并使用公共微博数据集进行了聚类实验,并与传统聚类方法进行对比,结果表明,本文所使用LDA 建模的分布式算法对中文微博数据聚类效果较好.
云计算、Hadoop、分布式文本聚类、潜在狄利克雷分配模型、变分贝叶斯推断
19
TP311.13(计算技术、计算机技术)
2017-10-10(万方平台首次上网日期,不代表论文的发表时间)
共3页
17-19