DOI：10.3969/j.issn.1673-8012.2011.03.013

基于属性重要性的Web文本聚类研究

引用

摘要：

Web文本聚类是一种典型的无指导机器学习技术,目标是将站点上采集到的Web文本分成若干簇,使同一簇内的文本相似性最大,不同簇间的文本相似性最小.为了对原始粗糙的Web文本数据进行降维处理,在知识属性值的基础上,计算单个属性相对于属性集的重要性量化值,并根据属性重要性量化值对特征向量降维,并采用K-means算法对降维后的数据聚类,实验证明该方法缩短了聚类时间.

关键词：Web文本聚类、特征表示、特征选择、属性重要性

所属期刊栏目：30

分类号：TP391(计算技术、计算机技术)

资助基金：安徽省教育厅自然科学基金项目KJ2009B121Z;安徽科技学院引进人才基金项目ZRC2008176

在线出版日期：2012-04-21（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：49-51

英文信息展示

期刊专题