10.3969/j.issn.1674-8646.2016.16.013
基于 MIDF(t)的短文本特征权重计算方法研究
随着互联网的飞速发展,传统的文本分类已经不能满足人们对信息服务系统的要求,为了实现大规模海量信息的有效利用,高准确率的分类算法成为近年的研究热点。通常情况下,网络上的影评属于短文本,文本中可供抽取的信息词量较少,而对文本分类不起作用的停用词比例相对较大,产生了向量维度高和特征稀疏这两大难题,因而研究难度更大。针对短文本特征稀疏和样本高度不均衡等特点,本文提出方法作为短文本特征权重的计算方法,既考虑了特征项在单个样本中的分布,又考虑了文本的类别特征,提高了短文本分类的查准率和查全率。实验结果表明,与传统的特征权重计算方法相比,该方法更适合短文本的分类。
短文本、文本分类、特征权重
7
TP311(计算技术、计算机技术)
黑龙江省哲学社会科学研究规划项目13E024
2016-09-08(万方平台首次上网日期,不代表论文的发表时间)
共2页
28-29