DOI：10.16208/j.issn1000-7024.2018.03.049

结合文本信息量和聚类的文本裁剪算法

引用

摘要：

针对KNN文本分类时间效率低的缺点,提出一种结合文本信息量和聚类的文本裁剪算法.考虑到训练文本中存在类别相关性弱的文本,计算每条文本包含的信息量并排序,对向量空间模型利用聚类删除噪声文本,结合文本的重要性在各类别中筛选出代表文本构建新的样本空间,在新样本空间上进行分类.实验结果表明,该方法能合理有效地裁剪文本集,提高分类效率.

关键词：文本分类、最邻近、文本信息量、聚类、样本裁剪

所属期刊栏目：39

分类号：TP301.6(计算技术、计算机技术)

资助基金：广西科技攻关计划基金项目桂科攻1598019-6;桂林市科技攻关计划基金项目2016010406-4;桂林电子科技大学研究生教育创新计划基金项目2016YJCX65

在线出版日期：2018-06-01（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：880-884

英文信息展示

期刊专题