基于卡方差异性和t-SNE的定性数据分类研究
针对定性数据环境下分类精度低且计算成本高的问题,提出了一种利用传统分类器和不同映射技术来提高类别可分性的分类变量识别方法.通过将初始特征(分类属性)映射到实数域空间,利用卡方距离(C-S)作为差异性的度量,增加特征空间的维数以提高类的可分性.运用t-分布领域嵌入算法(t-SNE)将数据的维数降到2或3个特征,从而减少了学习方法的计算时间.通过在公共分类数据集上的实验证明,C-S映射和t-SNE在保证识别精度的同时,大大减少了识别任务的计算量.同时,当只将C-S映射应用于数据集时,类别的可分性得到了增强,从而显著地提高了学习算法的性能.
卡方距离、t-SNE、数据分类、差异性
44
TP311.13(计算技术、计算机技术)
2021-07-28(万方平台首次上网日期,不代表论文的发表时间)
共7页
100-106