用于网页目录构建的文本聚类算法
为了提高网页目录的构建效率、增加其灵活性,提出了一种改进的文本聚类算法.改进的CBC算法用于快速确定文本的聚类中心,根据网页目录的特点,该算法增加了层次聚类方法,以形成文本类别的层次结构,考虑到网页文本的快速增长,采用增量方式对新网页进行聚类.把该算法应用于网页文本集,产生了有意义的聚类结果,对比K-Means算法,获得了更高的精度,并具有较高的时间性能,实验结果表明了该算法的有效性.
网页目录、文本聚类、特征向量、层次聚类、增量聚类
31
TP301(计算技术、计算机技术)
广东省自然科学基金项目07006474.广东省科技攻关基金项目2007B010200044
2010-06-30(万方平台首次上网日期,不代表论文的发表时间)
共4页
2002-2004,2088