10.3969/j.issn.1000-3428.2014.11.033
基于蚁群聚集信息素的半监督文本分类算法
半监督文本分类中已标记数据与未标记数据分布不一致,可能导致分类器性能较低。为此,提出一种利用蚁群聚集信息素浓度的半监督文本分类算法。将聚集信息素与传统的文本相似度计算相融合,利用Top-k策略选取出未标记蚂蚁可能归属的种群,依据判断规则判定未标记蚂蚁的置信度,采用随机选择策略,把置信度高的未标记蚂蚁加入到对其最有吸引力的训练种群中。在标准数据集上与朴素贝叶斯算法和EM算法进行对比实验,结果表明,该算法在精确率、召回率以及F1度量方面都取得了更好的效果。
文本分类、半监督学习、聚集信息素、自训练、Top-k策略、随机选择策略
TP311.12(计算技术、计算机技术)
国家自然科学基金资助项目61375059,61332016。
2014-12-09(万方平台首次上网日期,不代表论文的发表时间)
共5页
167-171