DOI：10.16208/j.issn1000-7024.2015.04.042

结合权重因子与特征向量改进的文本聚类算法

引用

摘要：

为解决特征词权重表示文本时存在的局限性和遗传 K-均值算子操作的低效性问题，提出一种包含文本预处理和改进算法的文本聚类方法。根据权重因子和特征向量进行文本预处理，更好体现文本间的差异性，通过遗传控制因子控制个体的交叉和变异，对交叉和变异概率采用自适应控制，确保优质个体顺利进入到下一代种群，体现遗传算法的全局优化能力和 K-均值算法的高效局部搜索能力。实验结果表明，该方法使特征词分类精度得到提高，改善了文本聚类效果。

关键词：文本聚类、权重因子、特征向量、遗传K-均值、遗传控制因子

分类号：TP391.1(计算技术、计算机技术)

资助基金：江西省研究生创新专项基金项目YC2013-S198

在线出版日期：2015-04-27（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：1051-1057

英文信息展示

期刊专题