Spark平台下的短文本特征扩展与分类研究

引用

摘要：

短文本分类经常面临特征维度高、特征稀疏、分类准确率差的问题.特征扩展是解决上述问题的有效方法,但却面临更大的短文本分类效率瓶颈.结合以上问题和现状,针对如何提升短文本分类准确率及效率进行了详细研究,提出了一种Spark平台上的基于关联规则挖掘的短文本特征扩展及分类方法.该方法首先采用背景语料库,通过关联规则挖掘的方式对原短文本进行特征补充;其次针对分类过程,提出基于距离选择的层叠支持向量机(support vector machine,SVM)算法;最后设计Spark平台上的短文本特征扩展与分类算法,通过分布式算法设计,提高短文本处理的效率.实验结果显示,采用提出的Spark平台上基于关联规则挖掘的短文本特征扩展方法后,针对大数据集,Spark集群上短文本特征扩展及分类效率约为传统单机上效率的4倍,且相比于传统分类实验,平均得到约15％的效率提升,其中特征扩展及分类优化准确率提升分别为10％与 5％.

关键词：短文本分类、特征扩展、关联规则、Spark平台

所属期刊栏目：11

分类号：TP391(计算技术、计算机技术)

在线出版日期：2017-07-05（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：732-741

英文信息展示

期刊专题