基于属性值的ID3算法改进
ID3算法是数据挖掘中经典的决策树分类算法.针对ID3算法所存在的属性取值偏向问题及只时较小的数据集有效的缺点提出改进.当训练样本各属性的取值个数相差较大的情况下,在计算划分标准时引入了属性取值个数N,在一定程度上克服了ID3算法易偏向于取值较多的属性这一缺陷,得到了结构更简洁的、较为理想的决策树.采用先剪枝的方法实现改进,设定一个阈值避免决策树的完全生长,在保持分类准确率的同时,大大地提高了算法的速度.实验结果表明,改进后的算法(AVID3)对许多数据集比传统ID3算法更有效.
决策树、ID3算法、剪枝、属性值、熵
29
TP301.6(计算技术、计算机技术)
华南农业大学校长基金项目2005X027
2008-09-01(万方平台首次上网日期,不代表论文的发表时间)
共3页
3011-3012,3033