多因素影响特征选择的短文本分类方法
特征选择即是降维去噪的过程,一个词汇是否具有强的类别区分能力通过特征选择评价函数的权值大小来衡量,然而影响特征选择的因素有很多,主要包括特征的维度、重要性和语义;针对短文本信息量少导致特征表示高维稀疏和传统特征提取方法缺乏语义的问题,构建多因素融合的特征选择函数FS,和传统的特征选择函数TF-IDF对比,FS不仅融入了特征的语义性,而且能够去除大量冗余特征,提高具有类别区分能力特征的权重;把FS作为新的特征选择函数,使用搜狗实验室的中文语料库进行短文本分类实验,验证了方法有效性.
短文本分类、特征提取、TF-IDF、Word2vec、多因素融合
27
山西省中科院科技合作项目20141101001;“十二五”山西省科技重大专项项目20121101001;山西省社会发展科技攻关项目20140313020-1
2019-03-18(万方平台首次上网日期,不代表论文的发表时间)
共6页
216-221