GM-FastText多通道词向量短文本分类模型
在针对短文本分类中文本特征稀疏难以提取、用词不规范导致OOV(out of vocabulary)等问题,提出了基于FastText模型多通道嵌入词向量,和GRU(gate recurrent unit)与多层感知机(multi-layer perceptron,MLP)混合网络结构(GRU-MLP hybrid network architecture,GM)的短文本分类模型GM-FastText.该模型使用FastText模型以N-gram方式分别产生不同的嵌入词向量送入GRU层和MLP层获取短文本特征,通过GRU对文本的特征提取和MLP层混合提取不同通道的文本特征,最后映射到各个分类中.多组对比实验结果表明:与TextCNN、TextRNN方法对比,GM-FastText模型Fl指标提升0.021和0.023,准确率提升1.96和2.08个百分点;与FastText,FastText-CNN,FastText-RNN 等对比,GM-FastText 模型F1 指标提升 0.006、0.014 和 0.016,准确率提升 0.42、1.06和1.41个百分点.通过对比发现,在FastText多通道词向量和GM混合结构网络的作用下,多通道词向量在短文本分类中有更好的词向量表达且GM网络结构对多参数特征提取有更好的性能.
短文本分类、快速文本、词向量、多层感知机、多特征
31
TP391;TU241;F515.653
国家自然科学基金61977021
2022-09-20(万方平台首次上网日期,不代表论文的发表时间)
共6页
403-408