DOI：10.3969/j.issn.2095-6835.2011.02.067

基于文本挖掘的聚类算法研究

引用

摘要：

随着网络中数据信息的大量积累,如何从海量文本数据中有效提取所需要的信息成为当前文本挖掘的重要内容.本文主要研究K-means和K-medoids两种聚类算法在文本挖掘中的应用,并通过实验利用基于人工判定的指标对两类算法在聚类文档的准确率和召回率方面进行了性能比较.实验结果表明,与K-means算法相比,K-medoids算法无论在准确率还是召回率方面都要高出5个百分点以上,且后者在处理异常数据和噪声数据方面更为鲁棒.

关键词：文本挖掘、K-means、K-medoids、准确率、召回率

所属期刊栏目：27

分类号：TP301(计算技术、计算机技术)

在线出版日期：2014-07-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：168-169,65

英文信息展示

期刊专题