10.3969/j.issn.1672-9722.2020.10.024
基于概率主题和文本互扩展的短文本分类技术
短文本一般具有篇幅较短、特征稀疏、信息量不明显等特性,直接使用传统的文本分类方法进行分类的效果一般不理想.潜在狄利克雷分布(LDA)主题模型生成的概率主题有助于使文本以语义为中心并减少稀疏性,进而使用概率主题信息对短文本进行特征扩展成为了可能.为了充分利用LDA主题模型的优势,论文提出了一种基于概率主题模型和文本互扩展的短文本分类方法,首先基于短文本自身语义信息的互扩展,然后依据LDA主题模型预测后得到的"文档—主题"和"主题—词"分布信息以及短文本的相异词关系实现短文本的特征扩展,最后使用支持向量机(SVM)分类方法进行短文本的分类处理.论文的分析验证结果表明,相较于单纯使用向量空间模型(VSM)来表征短文本,论文所提方法能有效改善对不同类别的短文本分类性能.
短文本、概率主题、特征扩展、潜在狄利克雷分布、支持向量机
48
TP391.1(计算技术、计算机技术)
2020-12-03(万方平台首次上网日期,不代表论文的发表时间)
共6页
2430-2435