10.3969/j.issn.1000-1220.2014.01.011
一种基于p权值的离群数据挖掘算法
传统的基于距离的离群数据挖掘方法计算量大,挖掘效率和精度较低.本文利用大多数据集的聚类性特征,采用p权值和剪枝技术,给出一种基于距离的离群数据挖掘算法.该算法首先采用基于三角不等式的剪枝技术,寻找出离群候选集,仅候选集驻内存;然后对候选集中的每个数据点,分两种情况:若近邻达不到k值,赋予一个相对较大权值,若达到k值,运用p权值方法,计算该数据对象与其k最近邻的距离和,和越大,则离群的可能性越大;将离群候选集中的每个数据点按权值大小排序,并确定是否为离群数据,从而较好地克服了离群检测中的掩盖和淹没现象;最后采用UCI数据,实验验证了该算法的有效性.
剪枝、离群数据挖掘、p权值、相似性搜索、三角不等式
35
TP311(计算技术、计算机技术)
山西省自然科学基金项目2010011021-2
2014-04-15(万方平台首次上网日期,不代表论文的发表时间)
共5页
55-59