DOI：10.16383/j.aas.c200071

基于池的无监督线性回归主动学习

引用

摘要：

在许多现实的机器学习应用场景中,获取大量未标注的数据是很容易的,但标注过程需要花费大量的时间和经济成本.因此,在这种情况下,需要选择一些最有价值的样本进行标注,从而只利用较少的标注数据就能训练出较好的机器学习模型.目前,主动学习(Active learning)已广泛应用于解决这种场景下的问题.但是,大多数现有的主动学习方法都是基于有监督场景:能够从少量带标签的样本中训练初始模型,基于模型查询新的样本,然后迭代更新模型.无监督情况下的主动学习却很少有人考虑,即在不知道任何标签信息的情况下最佳地选择要标注的初始训练样本.这种场景下,主动学习问题变得更加困难,因为无法利用任何标签信息.针对这一场景,本文研究了基于池的无监督线性回归问题,提出了一种新的主动学习方法,该方法同时考虑了信息性、代表性和多样性这三个标准.本文在3个不同的线性回归模型(岭回归、LASSO(Least absolute shrinkage and selection operator)和线性支持向量回归)和来自不同应用领域的12个数据集上进行了广泛的实验,验证了其有效性.

关键词：主动学习;无监督学习;线性回归;支持向量回归;LASSO;岭回归

所属期刊栏目：47

分类号：TP391.41;TP181;TQ0

资助基金：湖北省技术创新专项基金;国家自然科学基金;NSFC-深圳机器人基础研究中心重点项目;科技部政府间国际科技创新合作重点专项基金

在线出版日期：2022-01-13（万方平台首次上网日期，不代表论文的发表时间）

页数：共13页

页码：2771-2783

英文信息展示

期刊专题