10.3969/j.issn.1000-7024.2014.02.030
结合语义的改进FTC文本聚类算法
针对FTC文本聚类算法未考虑词语之间语义联系以及硬划分聚类的缺陷,提出了一种结合语义的改进FTC文本聚类算法SFTC.SFTC基于知网把文本的关键词集映射成概念集合,采用FP-Growth算法在概念层次上挖掘频繁项集并以此生成候选簇.考虑到文本具有多主题性,定义了簇间相似度度量公式,在生成结果簇的过程中通过判断相似度大小来决定簇间是否应该存在重叠,实现了文本聚类在一定程度上的软划分.实验结果表明,SFTC算法具有更高的聚类准确度和更高的运行效率.
文本聚类、频繁项集、知网、簇相似度、软划分
35
TP391.1(计算技术、计算机技术)
山西省科技基础条件平台基金项目2011091002-0102;山西大同大学青年科研基金项目2010Q13
2014-04-01(万方平台首次上网日期,不代表论文的发表时间)
共5页
515-519