DOI：10.3969/j.issn.1000-3428.2013.07.017

基于MapReduce的分布式网络数据聚类算法

引用

摘要：

时空复杂度较高以及物理机器内存不足，会导致传统聚类算法不能有效地分析处理大规模数据网络。针对该问题，在MapReduce分布式模型的基础上，提出一种网络数据分布式聚类算法。根据MRC理论设计有限MapReduce轮数，控制混洗过程所需时间，利用Map内合并技术对网络流量进行控制，在进行中间结果合并时仅对社团合并，而不考虑社团内部节点，以控制内存开销。使用模拟生成的数据在集群中进行实验，结果表明，当数据规模和集群规模增大时，该算法具有较好的加速比和扩展性。

关键词：聚类算法、分布式聚类、MapReduce编程模型、数据挖掘、社团结构

分类号：TP301.6(计算技术、计算机技术)

资助基金：辽宁省自然科学基金资助项目20102059

在线出版日期：2013-10-24（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：76-82

英文信息展示

期刊专题