基于主题相似性聚类的自适应文本分类
传统的文本分类方法仅使用一种模型进行分类,容易忽略不同类别特征词出现交叉的情况,影响分类性能.为提高文本分类的准确率,提出基于主题相似性聚类的文本分类算法.通过CHI和WordCount相结合的方法提取类特征词,利用K-means算法进行聚类并提取簇特征词构成簇特征词库.在此基础上,通过Adaptive Strategy算法自适应地选择fasttext、TextCNN或RCNN模型进行分类,得到最终分类结果.在AG News数据集上的实验结果表明,该算法可较好地解决不同类别特征词交叉的问题,与单独使用的fasttext、TextCNN、RCNN模型相比,其文本分类性能显著提升.
文本分类、CHI方法、特征提取、K-means算法、自适应算法
46
TP391(计算技术、计算机技术)
国家自然科学基金;云南省软件工程重点实验室开放基金
2020-04-21(万方平台首次上网日期,不代表论文的发表时间)
共6页
93-98