10.3969/j.issn.1007-3264.2012.01.015
基于后缀树的文本聚类算法
提出一种基于后缀树的文本聚类算法以实现中文文本的多主题聚类。先介绍基于后缀树的英文多主题聚类的主要流程。再分析中、英文语言的差异,并以中文词和短语为单位构造后缀树模型,随后构造基类关联图实现中文多主题聚类。实验分析表明,该方法能快速、较准确的实现中文文本的多主题聚类。
后缀树、后缀树聚类、多主题聚类
17
TP393(计算技术、计算机技术)
国家自然科学基金资助项目60806162;陕西省自然科学基金SJ08-ZT15;陕西省教育厅专项科研计划项目08JK425
2012-05-05(万方平台首次上网日期,不代表论文的发表时间)
共5页
62-66