10.3969/j.issn.1000-3428.2012.24.004
基于MapReduce的JP算法设计与实现
针对大规模文本聚类分析所面临的海量、高维、稀疏等难题,提出一种基于云计算的海量文本聚类解决方案.选择经典聚类算法Jarvis-Patrick(JP)作为案例,采用云计算平台的MapReduce编程模型对JP聚类算法进行并行化改造,利用搜狗实验室提供的语料库在Hadoop平台上进行实验验证.实验结果表明,JP算法并行化改造可行,且相对于单节点环境,该算法在处理大规模文本数据时具有更好的时间性能.
文本挖掘、聚类分析、文本聚类、海量数据、云计算、并行数据挖掘
38
TP391(计算技术、计算机技术)
2013-01-18(万方平台首次上网日期,不代表论文的发表时间)
共4页
14-16,20