10.3321/j.issn:1005-3026.2008.03.007
一种用于数据挖掘算法的数据生成方法
由于受到保密性、时间和数据多样性等一些原因的限制,测试数据集的获取一直困扰着数据挖掘算法的研究因此,提出一种基于遗传算法和熵的测试数据集的模拟生成方法,生成方法利用遗传算法具有继承性的特性对采集到的少量的真实数据进行扩充和模拟, 用熵衡量生成数据与真实数据的相似程度,最终生成规模大的测试数据集,并给出了描述型数据的生成算法使用此方法,可以生成同真实数据集具有相同的属性,相同的属性取值区间和属性值分布,类似属性关联关系的测试数据集,加速数据挖掘算法的研究进程.
数据挖掘、算法测试、模拟数据集生成、遗传算法、熵
29
TP274(自动化技术及设备)
国家自然科学基金60773218
2008-05-20(万方平台首次上网日期,不代表论文的发表时间)
共4页
328-331