基于PageRank的主动学习算法
在许多分类任务中,存在大量未标记的样本,并且获取样本标签耗时且昂贵.利用主动学习算法确定最应被标记的关键样本,来构建高精度分类器,可以最大限度地减少标记成本.本文提出一种基于PageRank的主动学习算法(PAL),充分利用数据分布信息进行有效的样本选择.利用PageRank根据样本间的相似度关系依次计算邻域、分值矩阵和排名向量;选择代表样本,并根据其相似度关系构建二叉树,利用该二叉树对代表样本进行聚类,标记和预测;将代表样本作为训练集,对其他样本进行分类.实验采用8个公开数据集,与5种传统的分类算法和3种流行的主动学习算法比较,结果表明PAL算法能取得更好的分类效果.
分类、主动学习、PageRank、邻域、聚类、二叉树
14
TP181(自动化基础理论)
国家自然科学基金项目61379089
2019-08-07(万方平台首次上网日期,不代表论文的发表时间)
共9页
551-559