10.3969/j.issn.1673-5692.2020.09.016
一种多特征融合的长文本分类方法
文本分类是自然语言处理的典型应用,一般采用卷积神经网络、双向长短期记忆网络等分类方法.基于语义网络和信息融合原理,研究工作提出了一种融合上下文特征、局部特征和平均表示特征等多特征的长文本分类方法.多特征融合方法需要清洗长文本并将文本表示为词向量,预处理后的定长文本词向量输入模型层;在模型层聚类提取特征,用双向长短期记忆网络提取词的上下文特征,用卷积神经网络提取词的局部特征,用平均池化模型提取词的平均表示特征;在线性层融合文本内容的这些信息特征并分类.经大量数据集实验,多特征融合方法分类准确率统计可达98.3%.
长文本分类、多特征融合、卷积神经网络CNN、双向长短期记忆网络Bi-LSTM、平均池化模型
15
TP391.4(计算技术、计算机技术)
国家自然科学基金61701457
2020-11-17(万方平台首次上网日期,不代表论文的发表时间)
共7页
910-916