10.3969/j.issn.1006-2475.2022.11.001
基于从共现矩阵提取关联的类别型数据聚类
类别型数据聚类被广泛应用于现实世界的不同领域中,如医学科学、计算机科学等.通常的类别型数据聚类,是在基于相异度量上进行研究,针对不同特点的数据集,聚类结果会受到数据集自身特点和噪音信息的影响.此外,基于表示学习的类别型数据聚类,实现复杂,聚类结果受到表示结果的影响较大.本文以共现矩阵为基础,提出一种可以直接考虑类别型数据原始信息关联关系的聚类方法——基于从共现矩阵提取关联的类别型数据聚类方法(CDCBCM).共现矩阵可被看作是一种对原始数据空间中信息关联情况的汇总.本文通过计算不同对象在各个属性子空间下的共现频率值来构建共现矩阵,并从共现矩阵中去除一些噪音信息,再使用归一化切割来得到聚类结果.本文方法在16个不同领域的公开数据集中进行测试,与8种现有方法进行比较,并采用F1-score指标进行检测.实验结果表明,本文方法在7个数据集上效果最好,平均排名最高,能更好地完成对类别型数据的聚类任务.
类别型数据、类别型数据聚类、机器学习、共现矩阵、归一化切割
TP391(计算技术、计算机技术)
科技创新新一代人工智能重大项目2030;2020AAA0105100
2022-12-01(万方平台首次上网日期,不代表论文的发表时间)
共8页
1-8