10.3969/j.issn.0258-2724.2010.06.026
基于动态聚类的Rough集快速离散化算法
为处理大数据量决策表的离散化问题,设计高效的离散化算法是必要的.根据候选断点在单属性上重要性值的分布规律,提出了"先动态聚类,再选择候选断点"的思路和基于Rough集的快速离散化算法.首先,根据断点的重要性在单个特征上的分布规律,对断点进行快速动态聚类,从而有效降低候选断点的数目;然后,在聚类结果的基础上,采用启发式方法快速选择并得到最终的断点集,从而实现决策表的离散化.试验结果表明:通过动态聚类,多数数据集候选断点的数目能减少80%以上,大大提高了后续断点选择的效率;用提出的算法处理7个UCI数据集Iris、Wine、Glass、Ecoli、Breast_w、Pima和Letter,其正确识别率分别约为92.0%、92.1%、69.3%、65.7%、95.3%、67.1%和76.5%.
粗集、决策表、离散化、聚类
45
TP18(自动化基础理论)
国家自然科学基金资助项目60573068,60773113;重庆市重点自然科学基金资助项目2008BA2017;重庆市杰出青年基金资助项目2008BA2041;重庆市教育委员会科学技术研究项目KJ090512
2011-03-23(万方平台首次上网日期,不代表论文的发表时间)
共7页
977-983