10.3969/j.issn.1000-3428.2007.14.008
一种基于内容特性的文本聚类方法
在基于概率模型的聚类中,簇模型对数据分布的拟合性直接影响着聚类质量.基于内容的文本数据分布的复杂性导致单一因素的簇模型无法准确拟合文本数据的分布特征.该文认为文本基于内容的分布特性主要受主题内容和通用写作方式影响,给出了一种基于主题模型和通用模型的混合簇模型和基于该簇模型的文本聚类方法.实验表明该聚类方法较单一因素的簇模型具有更好的拟合性,聚类质量更好.
聚类、基于概率模型的聚类、混合模型、EM子方法
33
TP391(计算技术、计算机技术)
辽宁省博士科研项目20041029;国家自然科学基金60573090
2007-08-13(万方平台首次上网日期,不代表论文的发表时间)
共4页
24-26,32