10.3778/j.issn.1673-9418.1608041
Spark平台下的短文本特征扩展与分类研究
短文本分类经常面临特征维度高、特征稀疏、分类准确率差的问题.特征扩展是解决上述问题的有效方法,但却面临更大的短文本分类效率瓶颈.结合以上问题和现状,针对如何提升短文本分类准确率及效率进行了详细研究,提出了一种Spark平台上的基于关联规则挖掘的短文本特征扩展及分类方法.该方法首先采用背景语料库,通过关联规则挖掘的方式对原短文本进行特征补充;其次针对分类过程,提出基于距离选择的层叠支持向量机(support vector machine,SVM)算法;最后设计Spark平台上的短文本特征扩展与分类算法,通过分布式算法设计,提高短文本处理的效率.实验结果显示,采用提出的Spark平台上基于关联规则挖掘的短文本特征扩展方法后,针对大数据集,Spark集群上短文本特征扩展及分类效率约为传统单机上效率的4倍,且相比于传统分类实验,平均得到约15%的效率提升,其中特征扩展及分类优化准确率提升分别为10%与 5%.
短文本分类、特征扩展、关联规则、Spark平台
11
TP391(计算技术、计算机技术)
2017-07-05(万方平台首次上网日期,不代表论文的发表时间)
共10页
732-741