基于主题相似性聚类的自适应文本分类

引用

摘要：

传统的文本分类方法仅使用一种模型进行分类,容易忽略不同类别特征词出现交叉的情况,影响分类性能.为提高文本分类的准确率,提出基于主题相似性聚类的文本分类算法.通过CHI和WordCount相结合的方法提取类特征词,利用K-means算法进行聚类并提取簇特征词构成簇特征词库.在此基础上,通过Adaptive Strategy算法自适应地选择fasttext、TextCNN或RCNN模型进行分类,得到最终分类结果.在AG News数据集上的实验结果表明,该算法可较好地解决不同类别特征词交叉的问题,与单独使用的fasttext、TextCNN、RCNN模型相比,其文本分类性能显著提升.

关键词：文本分类、CHI方法、特征提取、K-means算法、自适应算法

所属期刊栏目：46

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金;云南省软件工程重点实验室开放基金

在线出版日期：2020-04-21（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：93-98

英文信息展示

期刊专题