pgi-distance:一种高效的并行KNN-join处理方法

引用

摘要：

KNN-join是一种新近才提出的操作,它在数据挖掘中有着广泛的应用.利用KNN-join的"一次一个集合"的性质,一些数据挖掘任务,例如分类、例外挖掘和聚类等,就会更加容易地进行. MuX和Goreder则是两种专为KNN-join设计的算法.为了综合利用这两种方法的优点,一种新的KNN-join并行处理方法--pgi-distance(parallel grid index-distance)--被提了出来. pgi-distance使用双层结构,可以对I/O和CPU进行同时优化;基于距离的索引能够让它更好地适应数据维度和分布的变化.由于采用的是各DBMS厂商广泛支持的B+树索引,这让pgi-distance得以成为一种更为实用的KNN-join处理方法.在合成数据集和真实数据集上的测试也表明pgi-distance是实用的和高效的.

关键词：KNN-join、数据挖掘、分类、基于距离的索引、B+树

所属期刊栏目：44

分类号：TP311.13(计算技术、计算机技术)

资助基金：国家自然科学基金60463004

在线出版日期：2007-11-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：1774-1781

英文信息展示

期刊专题