10.7536/j.issn.0252-3116.2013.15.022
一种基于类别分布信息的文本特征选择模型
TF-IDF是一种常用的文本特征选择方法.基于该模型的特征选择思想,以特征项的类内分布、类间分布信息为依据,通过引入类内分布及类间分布权重因子对模型的TF及IDF部分进行加权,提出一种基于类别分布信息的文本特征选择模型.新模型使得TF部分含有类内文本频数信息,同时IDF部分含有特征项的类间频数信息.随后的文本分类试验表明,平均查全率、查准率分别提高6.4%、7.8%,F1值提高约7%,验证了本研究提出的基于类别分布的文本特征选择模型的有效性.
文本分类、特征选择、TF-IDF、类内分布、类间分布
57
G350(情报学、情报工作)
国家自然科学基金"直觉模糊聚类理论及其应用"71071161;江苏省自然科学基金"模糊语言模型研究"BK2012511
2013-11-08(万方平台首次上网日期,不代表论文的发表时间)
共5页
137-141