DOI：10.11772/j.issn.1001-9081.2021081371

基于聚类粒化和簇间散度的属性约简算法

引用

摘要：

属性约简是粗糙集理论中的研究热点,对连续值数据进行属性约简的算法大多基于优势关系或邻域关系.然而连续值数据集的属性不一定具有优势关系;而基于邻域关系的属性约简算法虽然可以通过邻域半径调整粒化程度,不过由于各属性量纲不同且半径参数为连续值使半径难以统一,导致整个参数粒化过程计算量较大.为解决此问题,提出一种基于聚类粒化的多粒度属性约简策略.首先,利用聚类方法将相似样本归类,并提出了基于聚类的近似集、相对正域及正域约简概念;其次,根据JS(Jensen-Shannon)散度理论对簇间各属性数据分布进行差异性度量,并选择出具有代表性的特征用以区分不同类簇;最后,利用可辨识矩阵设计了属性约简算法.所提算法不要求属性具有序关系,且不同于邻域半径,聚类参数为离散值,调节此参数就能够对数据集形成不同粒化程度的划分.在UCI与Kent Ridge数据集上进行的实验结果表明,该属性约简算法可以直接处理连续值数据,且该算法在较小范围内离散地调节聚类参数便能在保持甚至提高分类精度的前提下去除数据集中的冗余特征.

关键词：连续值数据、粗糙集、属性约简、聚类粒化、Jensen-Shannon散度

所属期刊栏目：42

分类号：TP18(自动化基础理论)

资助基金：国家自然科学基金61976141

在线出版日期：2022-09-29（万方平台首次上网日期，不代表论文的发表时间）

页数：共12页

页码：2701-2712

英文信息展示

期刊专题