DOI：10.3969/j.issn.1673-629X.2009.01.021

一种基于贪婪覆盖的文本分类方法

引用

摘要：

文本分类是信息检索和数据挖掘中的重要主题之一.文中提出了一种基于贪婪覆盖算法的文本分类方法,首先对文本进行分词,分词的结果用CHI统计量的方法提取特征,使用TF-IDF-ICSD进行特征权重计算.对贪婪覆盖算法采用另一种选取初始点的方法来构建分类器,用复旦大学语料库作为测试数据集,并与BP算法相比较.实验结果表明文本提出的方法是有效的.

关键词：文本分类、CHI统计量、TF-IDF-ICSD、贪婪覆盖算法

所属期刊栏目：19

分类号：TP311.5(计算技术、计算机技术)

资助基金：国家重点基础研究973计划资助项目2004CB318108,2007CB311003;国家自然科学基金资助项目60675031

在线出版日期：2009-03-31（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：74-76,80

英文信息展示

期刊专题