DOI：10.3969/j.issn.1673-629X.2017.09.016

基于特征空间的文本聚类

引用

摘要：

文本聚类是聚类算法的一种具体应用,随着互联网的发展,文本聚类应用越来越广泛,譬如在信息检索、智能搜索引擎等方面都有较为广泛的应用.文本聚类算法主要涉及文本预处理和文本聚类算法,故对文本聚类进行改进可以从这两方面入手.传统文本聚类的文本预处理采用VSM模型,该模型不考虑词与词的语义相似度和词与词的相关性,导致文本聚类精确度非常低.针对该问题,提出了基于特征空间文本聚类的方法.该方法根据文档集合的特征空间构造一个替代词库,并根据这个替代词库得到文档的主题,依据主题配合其对应的领域词典对文档词进行相应的替换.传统的文本聚类使用K-means算法,但该算法需要人工指定K值.为此,提出了基于K值优化的K-means改进算法.实验结果表明,所提出的文本聚类方法和K-means改进算法显著提高了文本聚类的智能性和精确性.

关键词：知网、领域词典、主题、义原、聚类、K值优化

所属期刊栏目：27

分类号：TP301.6(计算技术、计算机技术)

资助基金：安徽大学大学生科研训练计划项目J18520148

在线出版日期：2017-10-11（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：75-77,81

英文信息展示

期刊专题