10.11896/j.issn.1002-137X.2019.01.012
数据集分类可用性评估的置信区间方法
如何有效评价训练数据集的可用性,一直是困扰智能分类系统应用的难点问题.针对机器学习领域的数据分类问题,提出了一种基于区间分析和信息粒化的数据集分类可用性的评估方法,用于评价数据集的可分程度.该方法将待评估的数据集定义为分类信息系统,提出了分类置信区间的概念,通过区间分析进行信息粒化.在此信息粒化策略下,定义分类可用性的数学模型,并进一步给出单个属性以及整体数据集的分类可用性的计算方法.选择18个UCI标准数据集作为评估对象,给出了部分数据集分类可用性的评估结果,并且选取3种分类器对所选数据集进行分类实验,最终通过对上述实验结果的分析证明了该评估方法的有效性和可行性.
数据可用性、分类系统、区间分析、信息粒化、分类可用性
46
TP391(计算技术、计算机技术)
国家自然科学基金项目61772201;上海市科委基金项目16511101000;上海市科委基金项目17DZ11011003
2019-03-15(万方平台首次上网日期,不代表论文的发表时间)
共8页
78-85