10.3969/j.issn.1673-8012.2011.03.013
基于属性重要性的Web文本聚类研究
Web文本聚类是一种典型的无指导机器学习技术,目标是将站点上采集到的Web文本分成若干簇,使同一簇内的文本相似性最大,不同簇间的文本相似性最小.为了对原始粗糙的Web文本数据进行降维处理,在知识属性值的基础上,计算单个属性相对于属性集的重要性量化值,并根据属性重要性量化值对特征向量降维,并采用K-means算法对降维后的数据聚类,实验证明该方法缩短了聚类时间.
Web文本聚类、特征表示、特征选择、属性重要性
30
TP391(计算技术、计算机技术)
安徽省教育厅自然科学基金项目KJ2009B121Z;安徽科技学院引进人才基金项目ZRC2008176
2012-04-21(万方平台首次上网日期,不代表论文的发表时间)
共3页
49-51