10.3969/j.issn.1007-757X.2008.05.007
一种改进的文本特征选择方法的研究与设计
特征选择是文本挖掘技术的一个重要的环节.在中文分词的基础上,通过设计一个简单的应用程序,对文本进行预处理.然后,在分析比较几种用于文本分类的特征选择方法的基础上,提出了一种基于信息增益和互信息相结合的特征选择方法.利用它对文本文档进行特征选择,抽取代表其特征的元数据或特征词条构成特征向量,降低噪音.最后通过实验来和其它几种特征选择方法作比较,分析这种方法获取文本特征的精度.
文本挖掘、信息增益、互信息、特征向量
24
TP391(计算技术、计算机技术)
安徽省高校省级自然科学研究项目2007ZD-7021010
2008-07-17(万方平台首次上网日期,不代表论文的发表时间)
共3页
21-23