面向K-近邻学习模型的高效数据清洗框架

引用

摘要：

现实世界中收集的数据集通常是含有缺失的,为了在不完备数据集上构建有效的机器学习模型,需要对数据集进行清洗.为了确保较好的清洗效果,通常需要人工参与,从而导致大量成本.确定不完备数据的清洗优先级将有助于减小清洗规模,节约人工成本.而计算不完备数据的清洗优先级应确定其对模型性能的贡献.夏普利值是目前流行的用来评估数据在机器学习模型中贡献的方法,因此可以借助夏普利值的概念计算不完备数据的清洗优先级.由于现有工作缺少对不完备数据夏普利值的研究,首先基于不完备数据集的指数级的所有可能世界定义了一种不完备数据夏普利值的表示方法;然后基于K-近邻分类模型的效用函数,提出了一种多项式时间内计算不完备数据在K-近邻分类模型中夏普利值的近似算法;最后提出了一种基于夏普利值的面向K-近邻分类模型的启发式数据清洗算法ShapClean.实验表明,该算法在清洗后模型分类准确率方面往往可以明显超过现有的针对机器学习模型的自动清洗算法,而且相比同样需要人工参与的数据清洗算法,该方法具有更高的清洗效率,可以有效节约人工成本,同时保证理想的模型准确度.

关键词：不完备数据集、夏普利值、K-近邻(KNN)、清洗优先级、数据清洗

所属期刊栏目：17

分类号：TP399(计算技术、计算机技术)

在线出版日期：2023-09-18（万方平台首次上网日期，不代表论文的发表时间）

页数：共11页

页码：2241-2251

英文信息展示

期刊专题