基于样本密度和分类误差率的增量学习矢量量化算法研究

引用

摘要：

作为一种简单而成熟的分类方法, K 最近邻(K nearest neighbor, KNN)算法在数据挖掘、模式识别等领域获得了广泛的应用,但仍存在计算量大、高空间消耗、运行时间长等问题。针对这些问题,本文在增量学习型矢量量化(Incremental learning vector quantization, ILVQ)的单层竞争学习基础上,融合样本密度和分类误差率的邻域思想,提出了一种新的增量学习型矢量量化方法,通过竞争学习策略对代表点邻域实现自适应增删、合并、分裂等操作,快速获取原始数据集的原型集,进而在保障分类精度基础上,达到对大规模数据的高压缩效应。此外,对传统近邻分类算法进行了改进,将原型近邻集的样本密度和分类误差率纳入到近邻判决准则中。所提出算法通过单遍扫描学习训练集可快速生成有效的代表原型集,具有较好的通用性。实验结果表明,该方法同其他算法相比较,不仅可以保持甚至提高分类的准确性和压缩比,且具有快速分类的优势。

关键词：学习矢量量化、增量学习、分类误差率、样本密度、合并、分裂

分类号：TP3;TN9

资助基金：国家自然科学基金61203372,61472297资助@@@@Supported by National Natural Science Foundation of China61203372,61472297

在线出版日期：2015-07-07（万方平台首次上网日期，不代表论文的发表时间）

页数：共14页

页码：1187-1200

英文信息展示

期刊专题