10.16208/j.issn1000-7024.2018.03.049
结合文本信息量和聚类的文本裁剪算法
针对KNN文本分类时间效率低的缺点,提出一种结合文本信息量和聚类的文本裁剪算法.考虑到训练文本中存在类别相关性弱的文本,计算每条文本包含的信息量并排序,对向量空间模型利用聚类删除噪声文本,结合文本的重要性在各类别中筛选出代表文本构建新的样本空间,在新样本空间上进行分类.实验结果表明,该方法能合理有效地裁剪文本集,提高分类效率.
文本分类、最邻近、文本信息量、聚类、样本裁剪
39
TP301.6(计算技术、计算机技术)
广西科技攻关计划基金项目桂科攻1598019-6;桂林市科技攻关计划基金项目2016010406-4;桂林电子科技大学研究生教育创新计划基金项目2016YJCX65
2018-06-01(万方平台首次上网日期,不代表论文的发表时间)
共5页
880-884