10.11772/j.issn.1001-9081.2019111973
增强领域特征的电力审计文本分类方法
针对电力审计领域的文本具有行业特征明显、文本特征相似度高、分类边界模糊的特性,提出了增强领域特征的电力审计文本分类方法.首先构建面向电力审计的专业词典,提出EF-Doc2VecC模型再联合专业词典增强文本的特征,最后送入BiLSTM分类器实现专业领域的文本分类.实验结果表明,针对专业性显著的电力审计类文本分类,EF-Doc2Vec模型,在召回率、特异性、准确率和F1值分类指标上比对照模型Doc2VecC分别高出4,2,2,2个百分点;针对通用领域文本分类,EF-Doc2VecC模型在召回率、差异性、准确率和F1值分类指标上比对照模型Doc2VecC高出3,3,4,4个百分点.另外,EF-Doc2VecC模型在电力审计类的文本分类性能分别比通用领域高出4,5,3,3个百分点.因此,提出的文本向量表示方法及文本分类方法,不仅能提升通用领域的文本分类性能,还能显著提升垂直领域的文本细粒度分类性能.
电力审计、文本分类、增强特征、Doc2VecC、双向长短期记忆模型
40
TP391.1(计算技术、计算机技术)
国网湖北省电力有限公司科学技术项目SGHBJP00JGJS1900026
2020-08-07(万方平台首次上网日期,不代表论文的发表时间)
共4页
109-112