10.3969/j.issn.1000-3428.2012.02.070
一种基于词共现的文档聚类算法
为解决文本主题表达存在的信息缺失问题,提出一种基于词共现的文档聚类算法.利用文档集上的频繁共现词建立文档主题向量表示模型,将其应用于层次聚类算法中,并通过聚类熵寻找最优的层次划分,从而准确反映文档之间的主题相关关系.实验结果表明,该算法所获得的结果优于其他基于短语的文档层次聚类算法.
文档聚类、文档模型、词共现、文档相似度、聚类增益
38
TP301.6(计算技术、计算机技术)
国家自然科学基金资助项目70901054
2012-04-27(万方平台首次上网日期,不代表论文的发表时间)
共3页
213-214,220