10.3969/j.issn.1000-3428.2017.12.027
文本分类中基于K-Sprinkling的特征提取方法
传统的特征提取方法大多注重类别对特征词的作用,不能很好地表达样本对类别的影响.为此,对样本的类别贡献问题进行研究.针对Sprinkling特征提取方法中未考虑样本对类别的贡献度问题,提出一种基于K-Sprinkling的特征提取方法.综合考虑样本紧密度和样本隶属度信息,利用Sprinkling方法的特点,将样本权值映射到语义空间中,实现对文本的分类.实验结果表明,K-Sprinkling方法比传统的Sprinkling方法在平衡样本分类上F1值提高了1.89%,在不平衡样本分类上F1值提高了3.30%,取得了较好的分类效果.
特征提取、样本隶属度、样本紧密度、潜在语义索引、贡献度
43
TP301.6(计算技术、计算机技术)
黑龙江省自然科学基金F201201;林业公益性行业科研专项201504307
2018-04-09(万方平台首次上网日期,不代表论文的发表时间)
共6页
141-146