10.16208/j.issn1000-7024.2015.04.042
结合权重因子与特征向量改进的文本聚类算法
为解决特征词权重表示文本时存在的局限性和遗传 K-均值算子操作的低效性问题,提出一种包含文本预处理和改进算法的文本聚类方法。根据权重因子和特征向量进行文本预处理,更好体现文本间的差异性,通过遗传控制因子控制个体的交叉和变异,对交叉和变异概率采用自适应控制,确保优质个体顺利进入到下一代种群,体现遗传算法的全局优化能力和 K-均值算法的高效局部搜索能力。实验结果表明,该方法使特征词分类精度得到提高,改善了文本聚类效果。
文本聚类、权重因子、特征向量、遗传K-均值、遗传控制因子
TP391.1(计算技术、计算机技术)
江西省研究生创新专项基金项目YC2013-S198
2015-04-27(万方平台首次上网日期,不代表论文的发表时间)
共7页
1051-1057