10.16208/j.issn1000-7024.2018.06.021
结合类别与语义贡献度的特征权重计算方法
为解决在文本处理实际应用中,各文本通常没有包含明确的类别信息,以及在传统的基于向量空间模型的TF-IDF方法中特征项权重计算时,缺乏语义关系和类别区分度的问题,对特征项权重计算方法进行改进.提出特征项的语义贡献度,通过结合模糊聚类得到含有类别信息的文本集合;针对类别对特征项权重的影响提出类别信息熵,结合语义贡献度对传统的TF-IDF方法进行改进.在复旦大学中文文本分类语料库数据集上的测试结果表明,改进后的权重计算方法优于传统的权重计算方法.
模糊聚类、信息熵、文本聚类、类别区分度、向量空间模型
39
TP301(计算技术、计算机技术)
国家自然科学基金项目61173184
2018-07-19(万方平台首次上网日期,不代表论文的发表时间)
共4页
1619-1622