10.3969/j.issn.1673-1409-C.2010.01.019
基于FVSM的核聚类算法在文本聚类中的应用
针对信息挖掘中的文本自动聚类问题,提出了一种基于模糊向量空间模型的核聚类算法.首先对聚类文本进行模糊特征提取得到模糊特征项集,然后依据模糊特征项集对每篇文本计算特征项的文档频数,进而得出每篇文本的模糊特征向量.最后利用高斯核函数将每篇文本的特征向量映射到高维特征空间,在高维特征空间中利用核聚类算法实施文本聚类.该方法在特征提取时充分考虑了特征项在文档中的位置信息,使自动聚类原则更接近手工聚类方法.以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性.
模糊向量空间模型、文本聚类、核聚类算法
7
TP391(计算技术、计算机技术)
黑龙江省普通高等学校骨干教师创新能力资助计划项目1055G002;黑龙江省自然科学基金项目ZA2006-11;黑龙江省科技攻关项目GZ07A103
2010-07-06(万方平台首次上网日期,不代表论文的发表时间)
共4页
72-75