10.3969/j.issn.1672-9722.2017.09.024
基于改进随机决策树算法的分布式数据挖掘
随着大数据时代带来的数据量激增问题,该研究以随机决策树算法为基础,通过分析单个树与多个树的概率估计,利用无监督局部敏感哈希函数(LSH)处理大数据敏感分类,在对分布式数据挖掘过程中,采用超平面hash减少超平面的可能空间和增加系数处理密集数据类型,结合SimHash间接生成随机向量,FastHash将整数映射到位图处理稀疏数据类型.最后,在Spark平台上运行8个小数据集和6个大数据集的模拟结果显示:改进后的算法不需要构造很多深度树,检验了改进算法运行在配置不同数量节点的集群上的可扩展性.
分布式数据、数据挖掘、决策树算法、哈希函数
45
TP391.3(计算技术、计算机技术)
国家自然科学基金项目61372003
2017-11-09(万方平台首次上网日期,不代表论文的发表时间)
共7页
1802-1808