方差和词向量用于文本降维的研究
文本分类中的高维数据和噪声一直是影响文本分类准确率的主要因素,特征选择和特征提取是降维和去噪的主要手段.本文提出根据词的类间概率分布方差和文档分布方差改进TF-IDF的特征选择方法(VAR-TF-IDF),调整Word2vec中的CBOW+HS词向量训练框架,用特征词词向量的叠加作为文本的特征向量,有效地提高了文本分类的准确率和召回率.实验算例证明了所提方案的有效性.
方差、词向量、文本分类、衰减系数
25
TP3;TP1
国家高技术研究发展计划8632014AA06A503;国家自然科学基金61422307
2016-12-13(万方平台首次上网日期,不代表论文的发表时间)
共6页
29-34