10.19678/j.issn.1000-3428.0060560
融合笔画特征的胶囊网络文本分类
目前多数文本分类方法无法有效反映句子中不同单词的重要程度,且在神经网络训练过程中获得的词向量忽略了汉字本身的结构信息.构建一种GRU-ATT-Capsule混合模型,并结合CW2Vec模型训练中文词向量.对文本数据进行预处理,使用传统的词向量方法训练的词向量作为模型的第1种输入,通过CW2Vec模型训练得到的包含汉字笔画特征的中文词向量作为第2种输入,完成文本表示.利用门控循环单元分别提取2种不同输入的上下文特征并结合注意力机制学习文本中单词的重要性,将2种不同输入提取出的上下文特征进行融合,通过胶囊网络学习文本局部与全局之间的关系特征实现文本分类.在搜狗新闻数据集上的实验结果表明,GRU-ATT-Capsule混合模型相比TextCNN、BiGRU-ATT模型在测试集分类准确率上分别提高2.35和4.70个百分点,融合笔画特征的双通道输入混合模型相比单通道输入混合模型在测试集分类准确率上提高0.45个百分点,证明了GRU-ATT-Capsule混合模型能有效提取包括汉字结构在内的更多文本特征,提升文本分类效果.
词向量;笔画特征;门控循环单元;注意力机制;胶囊网络;文本分类
48
TP391(计算技术、计算机技术)
甘肃省自然科学基金SKLLDJ032016021
2022-03-22(万方平台首次上网日期,不代表论文的发表时间)
共6页
69-73,80