DOI：10.13374/j.issn1001-053x.2014.10.019

基于MapReduce的大规模文本聚类并行化

引用

摘要：

建立快速有效的针对大规模文本数据的聚类分析方法是当前数据挖掘研究和应用领域中的一个热点问题。为了同时保证聚类效果和提高聚类效率，提出基于“互为最小相似度文本对冶搜索的文本聚类算法及分布式并行计算模型。首先利用向量空间模型提出一种文本相似度计算方法；其次，基于“互为最小相似度文本对冶搜索选择二分簇中心，提出通过一次划分实现簇质心寻优的二分K-means聚类算法；最后，基于MapReduce框架设计面向云计算应用的大规模文本并行聚类模型。在Hadoop平台上运用真实文本数据的实验表明：提出的聚类算法与原始二分K-means相比，在获得相当聚类效果的同时，具有明显效率优势；并行聚类模型在不同数据规模和计算节点数目上具有良好的扩展性。

关键词：云计算、文本、聚类、相似度

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金;高等学校博士学科点专项科研基金;中央高校基本科研业务费专项

在线出版日期：2014-11-15（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：1411-1419

英文信息展示

期刊专题