10.13705/j.issn.1671-6833.2023.02.007
基于新的距离度量的异构属性数据子空间聚类
真实数据集中往往包含分类属性和数值属性,其中分类属性可分为有序属性和标称属性,同时具有分类属性和数值属性的数据集可称为异构属性数据.针对现有异构属性数据距离度量不区分分类属性中的有序属性导致信息缺失、聚类效果不理想这一问题,提出了一种基于新的距离度量的异构属性数据子空间聚类算法.首先,总结了现有的异构属性数据距离度量的思路和区分有序属性的解决方案;其次,利用不同属性的数据特征分别定义了有序属性、标称属性和数值属性下的属性值之间的距离公式;再次,利用簇间差异和簇内距离这2个因素分别给出了不同属性在聚类过程中的动态加权方案;最后,联立距离公式和加权机制得到了可适用于异构属性数据的距离度量,进而设计了一种基于新的距离度量的异构属性数据子空间聚类算法.由于该算法既统一了异构属性数据的距离度量又能在子空间中进行簇搜索,因此该算法能在异构属性数据集上取得良好的聚类效果,在11个真实数据集上的对比实验结果验证了此算法的有效性.
异构属性数据、有序属性、距离度量、子空间聚类算法、动态权重
44
O235;TP311.13(控制论、信息论(数学理论))
国家自然科学基金;广东省自然科学基金资助项目;广东省研究生教育创新计划项目
2023-03-09(万方平台首次上网日期,不代表论文的发表时间)
共8页
53-60