10.3969/j.issn.1000-3428.2009.07.061
基于独立分量分析的隐蔽Web领域聚类
针对隐蔽Web主题领域自动识别问题,提出一种基于独立分量分析(ICA)的聚类算法.对查询页面进行页面文本抽取和预处理,利用TF-IDF公式计算权重并选择前N个权重最大的特征词构造文档矩阵,在使用潜在语义索引(LSI)进行特征重构的基础上通过ICA分解获得类别信息.利用LSI的词共现分析和文本降噪能力提高聚类准确率.实验表明聚类平均准确率达到90%以上.
隐蔽Web、潜在语义、独立分量分析、文本聚类
35
TP3;G2
2009-05-20(万方平台首次上网日期,不代表论文的发表时间)
共3页
175-176,179