DOI：10.11992/tis.201804052

基于PageRank的主动学习算法

引用

摘要：

在许多分类任务中,存在大量未标记的样本,并且获取样本标签耗时且昂贵.利用主动学习算法确定最应被标记的关键样本,来构建高精度分类器,可以最大限度地减少标记成本.本文提出一种基于PageRank的主动学习算法(PAL),充分利用数据分布信息进行有效的样本选择.利用PageRank根据样本间的相似度关系依次计算邻域、分值矩阵和排名向量;选择代表样本,并根据其相似度关系构建二叉树,利用该二叉树对代表样本进行聚类,标记和预测;将代表样本作为训练集,对其他样本进行分类.实验采用8个公开数据集,与5种传统的分类算法和3种流行的主动学习算法比较,结果表明PAL算法能取得更好的分类效果.

关键词：分类、主动学习、PageRank、邻域、聚类、二叉树

所属期刊栏目：14

分类号：TP181(自动化基础理论)

资助基金：国家自然科学基金项目61379089

在线出版日期：2019-08-07（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：551-559

英文信息展示

期刊专题