一种基于熵的连续属性离散化算法
连续属性离散化的关键在于合理确定离散化划分点的个数和位置.为了提高无监督离散化的效率,给出一种基于熵的连续属性离散化方法.该方法利用连续属性的信息量(熵)的特性,通过对连续属性变量的自身划分,最小化信息熵的减少和区间数,并寻求熵的损失与适度的区间数之间的最佳平衡,以便得优化的离散值.实验表明该算法是行之有效的.
熵、连续属性、离散化、分类
25
TP311.13(计算技术、计算机技术)
2005-03-31(万方平台首次上网日期,不代表论文的发表时间)
共3页
637-638,651