10.11772/j.issn.1001-9081.2018041141
基于MapReduce的大数据主动学习
针对传统的主动学习算法只能处理中小型数据集的问题,提出一种基于MapReduce的大数据主动学习算法.首先,在有类别标签的初始训练集上,用极限学习机(ELM)算法训练一个分类器,并将其输出用软最大化函数变换为一个后验概率分布.然后,将无类别标签的大数据集划分为l个子集,并部署到l个云计算节点上.在每一个节点,用训练出的分类器并行地计算各个子集中样例的信息熵,并选择信息熵大的前q个样例进行类别标注,将标注类别的l×q个样例添加到有类别标签的训练集中.重复以上步骤直到满足预定义的停止条件.在Artificial、Skin、Statlog和Poker 4个数据集上与基于ELM的主动学习算法进行了比较,结果显示,所提算法在4个数据集上均能完成主动样例选择,而基于ELM的主动学习算法只在规模最小的数据集上能完成主动样例选择.实验结果表明,所提算法优于基于极限学习机的主动学习算法.
大数据、主动学习、不确定性、极限学习机、样例选择
38
TP181(自动化基础理论)
河北省自然科学基金资助项目F2017201026;河北大学自然科学基金资助项目799207217071;河北大学研究生创新项目hbu2018ss47
2018-11-12(万方平台首次上网日期,不代表论文的发表时间)
共5页
2759-2763