10.16208/j.issn1000-7024.2019.11.019
改进的基于词集距离的FTC聚类算法
针对FTC在实现聚类的过程中忽略了文本词语有序性这一特征,结合算法时间复杂度,提出基于词集距离的WSDFTC文本聚类算法.在采用FP Growth挖掘频繁项集的过程中通过限制词集距离得到质量更高、数量更少的频繁项集,以此作为聚类依据.通过定义簇间相似系数保证多主题文本归入不同簇中,实现一定程度的软聚类.实验结果表明,WSDFTC具有更好的聚类效果及更优的时间开销.
频繁项集、聚类、词集距离、簇间相似系数、软聚类
40
TP391.1(计算技术、计算机技术)
大同市科技计划基金项目2018187;山西省教育科学“十二五”规划基金项目GH13091;山西大同大学青年基金项目2016Q9
2020-01-07(万方平台首次上网日期,不代表论文的发表时间)
共5页
3175-3179