基于频繁项特征扩展的短文本分类方法

引用

摘要：

短文本具有特征维度高且稀疏等特点,导致将传统的分类方法应用于短文本分类时效果较差.针对此问题,提出基于频繁项特征扩展的短文本分类方法(Short Text Classification Based on Frequent Item Feature Extension,STCFIFE).首先通过FP-growth算法挖掘背景语料库的频繁项集,结合上下文的关联特征,计算出扩展特征权重;然后将新特征加入到原短文本的特征空间中,在此基础上训练SVM(Support Vector Machine,SVM)分类器,并进行分类.实验结果表明,与传统的SVM算法和LDA+KNN算法相比,STCFIFE方法能有效缓解短文本特征不足、高维稀疏的问题,使F 1值提升了2％～10％,提高了短文本的分类效果.

关键词：短文本分类、特征扩展、频繁项挖掘、特征权重、支持向量机

所属期刊栏目：46

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金61702013;北京市优秀人才培养资助项目2016000020124G016;北京市教委科技计划项目KM201710009008;北方工业大学科研启动项目资助

在线出版日期：2019-07-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：478-481

英文信息展示

期刊专题