DOI：10.3969/j.issn.1673-629X.2022.04.003

基于LDA和BiGRU的文本分类

引用

摘要：

文本分类是自然语言处理的基础任务,文本中的特征稀疏性和提取特征所用的神经网络影响后续的分类效果.针对文本中的特征信息不足以及传统模型上下文依赖关系方面不足的问题,提出经过TF-IDF加权的词向量和LDA主题模型相融合,利用双向门控循环神经网络层(BiGRU)充分提取文本深度信息特征的分类方法.该方法主要使用的数据集是天池比赛新闻文本分类数据集,首先用Word2vec和LDA模型分别在语料库中训练词向量,Word2vec经过TF-IDF进行加权所得的词向量再与LDA训练的经过最大主题概率扩展的词向量进行简单拼接,拼接后得到文本矩阵,将文本矩阵输入到BiGRU神经网络中,分别从前后两个反方向提取文本深层次信息的特征向量,最后使用softmax函数进行多分类,根据输出的概率判断所属的类别.与现有的常用文本分类模型相比,准确率、F1值等评价指标都有了较高的提升.

关键词：LDA主题模型、BiGRU、Word2vec、深度学习、文本分类

所属期刊栏目：32

分类号：TP391.1;TP183(计算技术、计算机技术)

资助基金：国家自然科学基金;广东省普通高校人工智能重点领域专项

在线出版日期：2022-05-11（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：15-20

英文信息展示

期刊专题