基于改进CFSFDP算法的文本聚类方法及其应用
[目的]针对CFSFDP(Clustering by Fast Search and Find of Density Peaks)算法利用局部密度和距离的乘积选择聚类中心而导致聚类结果不理想的问题进行改进.[方法]提出一种基于粒子群算法的CFSFDP算法,通过粒子群算法寻找CFSFDP算法中的最佳局部密度和距离阈值,得到相对较高的局部密度和距离的聚类中心,减少离散点对数据中心选取的影响,并在某高考咨询平台提供的考生问题库中随机选取数据集进行试验.[结果]实验结果表明,在不同的数据集中,本文算法相对于基本的CFSFDP算法在准确率、召回率、F值上均有明显提高.[局限]文本处理时没有考虑语义关系.[结论]本文方法有很好的聚类效果,应用在高考咨询库中能够有效地减轻被咨询方的工作量并且帮助快速回答考生的问题.
CFSDFP、聚类中心、粒子优化群算法
TP391(计算技术、计算机技术)
国家自然科学基金青年基金项目“引入涉身认知机制的汉语隐喻计算模型及其实现”61103101;国家自然科学基金青年基金项目“基于马尔科夫树与DRT的汉语句群自动划分算法研究”61202281;教育部人文社会科学研究青年基金项目“面向信息处理的汉语隐喻计算研究”项目10YJCZH052的研究成果之一
2017-06-30(万方平台首次上网日期,不代表论文的发表时间)
共6页
94-99