基于双向编码表示预训练模型的舆情文本解析分类

引用

摘要：

随着人工智能和大数据的不断发展,网络数据呈现爆炸式的增长,日益增长的庞大数据量给网络舆情监测分析带来了挑战,急需一种应对海量数据的文本分类算法来自动识别和分类舆情信息.提出一种基于双向编码表示(BERT,Bidirectional Encoder Representations from Transformers)预训练模型的舆情文本解析分类方法.首先将文本输入到词典编码器中;随后通过多层转换器编码将输入特征映射成为一个上下文关联的特征向量;最后为了捕获局部信息,使用卷积神经网络进一步编码并将编码后的信息输入到分类器预测舆情文本属性.

关键词：舆情文本解析、舆情文本分类、自然语言处理、机器学习

分类号：TP391.1(计算技术、计算机技术)

资助基金：中国电科新一代人工智能专项行动计划项目AI20191125008

在线出版日期：2021-07-27（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：118-120,123

期刊专题