pgi-distance:一种高效的并行KNN-join处理方法
KNN-join是一种新近才提出的操作,它在数据挖掘中有着广泛的应用.利用KNN-join的"一次一个集合"的性质,一些数据挖掘任务,例如分类、例外挖掘和聚类等,就会更加容易地进行. MuX和Goreder则是两种专为KNN-join设计的算法.为了综合利用这两种方法的优点,一种新的KNN-join并行处理方法--pgi-distance(parallel grid index-distance)--被提了出来. pgi-distance使用双层结构,可以对I/O和CPU进行同时优化;基于距离的索引能够让它更好地适应数据维度和分布的变化.由于采用的是各DBMS厂商广泛支持的B+树索引,这让pgi-distance得以成为一种更为实用的KNN-join处理方法.在合成数据集和真实数据集上的测试也表明pgi-distance是实用的和高效的.
KNN-join、数据挖掘、分类、基于距离的索引、B+树
44
TP311.13(计算技术、计算机技术)
国家自然科学基金60463004
2007-11-26(万方平台首次上网日期,不代表论文的发表时间)
共8页
1774-1781