DOI：10.11992/tis.201706033

基于Spark的多标签超网络集成学习

引用

摘要：

近年来,多标签学习在图像识别和文本分类等多个领域得到了广泛关注,具有越来越重要的潜在应用价值.尽管多标签学习的发展日新月异,但仍然存在两个主要挑战,即如何利用标签间的相关性以及如何处理大规模的多标签数据.针对上述问题,基于MLHN算法,提出一种能有效利用标签相关性且能处理大数据集的基于Spark的多标签超网络集成算法SEI-MLHN.该算法首先引入代价敏感,使其适应不平衡数据集.其次,改良了超网络演化学习过程,并优化了损失函数,降低了算法时间复杂度.最后,进行了选择性集成,使其适应大规模数据集.在11个不同规模的数据集上进行实验,结果表明,该算法具有较好的分类性能,较低的时间复杂度且具备良好的处理大规模数据集的能力.

关键词：多标签学习、超网络、标签相关性、ApacheSpark、选择性集成学习

所属期刊栏目：12

分类号：TP181(自动化基础理论)

资助基金：重庆市基础与前沿研究计划项目cstc2014jcyjA40001,cstc2014jcyjA40022;重庆教委科学技术研究项目自然科学类KJ1400436

在线出版日期：2017-12-18（万方平台首次上网日期，不代表论文的发表时间）

页数：共16页

页码：624-639

英文信息展示

期刊专题