基于统计学习的自适应文本聚类

引用

摘要：

针对文本数据的高维性和稀疏性从而使传统的聚类算法在文本聚类应用中的表现不能让人满意的问题,通过计算文档相似度矩阵,在聚类过程中动态地统计学习已划分和未划分文本集合的相关信息,探测剩余未划分的数据集中的与已划分类簇覆盖度较小的最大密集区域,逐步生成预定数目的初始聚类中心集合,最后将剩余文档划分到最相似的初始聚类中心集合完成聚类,从而有效地减小了划分聚类算法对初始聚类中心的敏感性。算法中的一些阈值参数均通过在聚类过程中动态地对数据集进行统计学习得到,避免了多数聚类算法通过经验或实验设定阈值参数的盲目性,在不同数据集上的鲁棒性更强。在几个中英文数据集上的实验结果表明本文算法在不同数据集上表现良好,优于CLUTO聚类器中的聚类算法。

关键词：聚类、向量空间模型、相似度、划分、阈值

所属期刊栏目：44

分类号：TP391(计算技术、计算机技术)

资助基金：国家科技支撑计划资助项目2007BAH08802;陕西省13115科技创新工程重大专项资助项目2007ZDKG-57

在线出版日期：2012-04-28（万方平台首次上网日期，不代表论文的发表时间）

页码：106-111,117

英文信息展示

期刊专题