10.3969/j.issn.1005-9369.2022.05.003
基于ERNIE-RCNN梅花研究信息文本分类方法
采用文本分类方法对梅花中文语料按研究方向(基因、育种、非生物胁迫等)进行分类,是构建梅花知识图谱的重要预处理过程,也是对基于以上研究方向的梅花研究信息进行相关语义检索、智能问答等的重要基础.为探究文本分类方法应用于梅花研究信息的可行性,提出基于改进ERNIE-RCNN的梅花研究信息文本分类方法.针对缺乏梅花研究信息数据集导致常用文本分类方法分类效果不佳的问题,构建包含6个研究方向的中文梅花研究信息文本数据集;针对传统分类模型的编码机制难以体现文本逻辑性、语义还原不精确的问题,引入预训练模型ERNIE对文本进行编码,在编码过程中增强对文本特征提取与语义表示的能力;为更好保留文本词序及特征,提高分类正确性,在ERNIE模型编码基础上融合TextRCNN模型进行分类,改进TextRCNN模型卷积层丢弃率,增强分类模型泛化性,提高分类能力.通过对改进ERNIE-RCNN模型与仅改进ERNIE的ERNIE-RCNN模型、原始ERNIE-RCNN模型、ERNIE模型、BERT模型以及TextRCNN模型进行对比,试验结果表明,改进ERNIE-RCNN模型在不同评价指标上均高于其他模型,精准率、召回率和F1值分别不小于91.53%、90.27%、92.35%,正确率为95.35%.基于改进ERNIE-RCNN的梅花研究信息文本分类方法可满足实际需要.
梅花、研究信息、文本分类、ERNIE、TextRCNN、深度学习
53
TP391.1(计算技术、计算机技术)
国家自然科学基金;国家自然科学基金
2022-07-14(万方平台首次上网日期,不代表论文的发表时间)
共12页
20-31