基于LDA特征扩展的短文本分类

引用

摘要：

针对中文短文本篇幅较短、特征稀疏性等特征，提出了一种基于隐含狄利克雷分布模型的特征扩展的短文本分类方法。在短文本原始特征的基础上，利用LDA主题模型对短文本进行预测，得到对应的主题分布，把主题中的词作为短文本的部分特征，并扩充到原短文本的特征中去，最后利用SVM分类方法进行短文本的分类。实验表明，该方法在性能上与传统的直接使用VSM模型来表示短文本特征的方法相比，对不同类别的短文本进行分类，都有不同程度的提高与改进，对于短文本进行补充LDA特征信息的方法是切实可行的。

关键词：隐含狄利克雷分布、文本分类、支持向量机、特征扩展

分类号：TP391.1(计算技术、计算机技术)

资助基金：国家自然科学基金重点项目No.61133012；国家自然科学基金面上项目No.61173062。

在线出版日期：2015-03-03（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：123-127

英文信息展示

期刊专题