DOI：10.3969/j.issn.1000-3428.2014.11.033

基于蚁群聚集信息素的半监督文本分类算法

引用

摘要：

半监督文本分类中已标记数据与未标记数据分布不一致，可能导致分类器性能较低。为此，提出一种利用蚁群聚集信息素浓度的半监督文本分类算法。将聚集信息素与传统的文本相似度计算相融合，利用Top-k策略选取出未标记蚂蚁可能归属的种群，依据判断规则判定未标记蚂蚁的置信度，采用随机选择策略，把置信度高的未标记蚂蚁加入到对其最有吸引力的训练种群中。在标准数据集上与朴素贝叶斯算法和EM算法进行对比实验，结果表明，该算法在精确率、召回率以及F1度量方面都取得了更好的效果。

关键词：文本分类、半监督学习、聚集信息素、自训练、Top-k策略、随机选择策略

分类号：TP311.12(计算技术、计算机技术)

资助基金：国家自然科学基金资助项目61375059,61332016。

在线出版日期：2014-12-09（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：167-171

英文信息展示

期刊专题