10.3969/j.issn.1000-3428.2013.07.017
基于MapReduce的分布式网络数据聚类算法
时空复杂度较高以及物理机器内存不足,会导致传统聚类算法不能有效地分析处理大规模数据网络。针对该问题,在MapReduce分布式模型的基础上,提出一种网络数据分布式聚类算法。根据MRC理论设计有限MapReduce轮数,控制混洗过程所需时间,利用Map内合并技术对网络流量进行控制,在进行中间结果合并时仅对社团合并,而不考虑社团内部节点,以控制内存开销。使用模拟生成的数据在集群中进行实验,结果表明,当数据规模和集群规模增大时,该算法具有较好的加速比和扩展性。
聚类算法、分布式聚类、MapReduce编程模型、数据挖掘、社团结构
TP301.6(计算技术、计算机技术)
辽宁省自然科学基金资助项目20102059
2013-10-24(万方平台首次上网日期,不代表论文的发表时间)
共7页
76-82