基于频繁项特征扩展的短文本分类方法
短文本具有特征维度高且稀疏等特点,导致将传统的分类方法应用于短文本分类时效果较差.针对此问题,提出基于频繁项特征扩展的短文本分类方法(Short Text Classification Based on Frequent Item Feature Extension,STCFIFE).首先通过FP-growth算法挖掘背景语料库的频繁项集,结合上下文的关联特征,计算出扩展特征权重;然后将新特征加入到原短文本的特征空间中,在此基础上训练SVM(Support Vector Machine,SVM)分类器,并进行分类.实验结果表明,与传统的SVM算法和LDA+KNN算法相比,STCFIFE方法能有效缓解短文本特征不足、高维稀疏的问题,使F 1值提升了2%~10%,提高了短文本的分类效果.
短文本分类、特征扩展、频繁项挖掘、特征权重、支持向量机
46
TP391(计算技术、计算机技术)
国家自然科学基金61702013;北京市优秀人才培养资助项目2016000020124G016;北京市教委科技计划项目KM201710009008;北方工业大学科研启动项目资助
2019-07-08(万方平台首次上网日期,不代表论文的发表时间)
共4页
478-481