10.3969/j.issn.1009-0134.2014.14.002
基于Hadoop平台的并行化数据分类算法研究
随着云数据规模的急剧增长,传统的基于统计学和机器学习方法的数据分类算法在处理海量、异构和复杂的Web数据时面临系统扩展性的瓶颈。在云计算平台Hadoop上,实现数据分类中特征提取、特征分析和特征分类的MapReduce化处理。通过知识推理并行化特征构造,建立概念层次结构的特征度量,与分类算法的并行化处理进行融合,在真实数据集上进行验证,与传统算法组合在精度和时间开销上进行比较,实验表明该分类算法能获得更好的准确性和加速比,是一种有效的海量数据分类方法。
云计算、数据分类、Hadoop、并行计算、MapReduce
TP242.3(自动化技术及设备)
江苏省高校自然科学基金资助项目13KJB510005;江苏开放大学、江苏城市职业学院“十二五”2013年度规划青年专项课题13SEW-Q-055
2014-08-12(万方平台首次上网日期,不代表论文的发表时间)
共5页
5-9