10.3321/j.issn:1001-0505.2008.03.005
分布式数据挖掘中的最优K相异性取样技术
为了弥补基于集中式处理的分布式数据挖掘方法的不足,有效地实施分布式数据挖掘(DDM)任务,需要一种能从分布式数据源中获取多样化代表性取样集的技术.提出了一种新的适用于分布式数据挖掘环境的数据取样算法(OptiSim-DDM方法),算法核心是基于最优K相异性进行数据选择,采用移动Agent技术和扩展的最优K相异性数据多样化代表性子集选择方法,能在各分布式数据场地中轮转选择出全局数据集的多样化代表性取样集.该方法通过降低所挖掘的数据集的数据规模来降低数据挖掘算法的时空复杂度,降低网络通讯代价,提高数据挖掘的执行效率,适合于各场地数据是互相关联和互相依赖的分布式数据挖掘任务.实验结果证实该方法是可行、有效的.
分布式数据挖掘、最优K相异性选择算法、Agent
38
TP311.13(计算技术、计算机技术)
国家自然科学基金资助项目70371015;教育部高等学校博士点科研基金资助项目20040286009;福建省教育厅科技资助项目JB06142
2008-07-14(万方平台首次上网日期,不代表论文的发表时间)
共5页
385-389