DOI：10.3969/j.issn.1003-0077.2022.01.011

基于BERT-RCNN的中文违规评论识别研究

引用

摘要：

以网络暴力为主的恶意攻击行为已经导致多起恶性事件发生,违规评论问题引起了社会广泛关注.当前违规评论检测手段主要是依靠敏感词屏蔽的方式,这种方式无法有效识别不含低俗用语的恶意评论.该文通过爬虫及人工标注的方式建立一个中文违规评论数据集,采用BERT预训练模型进行词嵌入操作,以保留文本隐含的语义信息.在BERT基础上再利用结合注意力机制的RCNN进一步提取评论的上下文特征,并加入多任务学习联合训练提升模型分类精度及泛化能力.该模型不再完全依赖敏感词库.实验结果表明,该文提出的模型相比传统模型可以更好地理解语义信息,利于发现潜在恶意.该文模型在识别中文违规评论数据集时精确率达到了 94.24％,比传统TextRNN高8.42％,比结合注意力机制的TextRNN高6.92％.

关键词：违规评论识别、迁移学习、BERT预训练模型

所属期刊栏目：36

分类号：TP391(计算技术、计算机技术)

资助基金：浙江省公益性技术应用研究计划2017C33001

在线出版日期：2022-05-07（万方平台首次上网日期，不代表论文的发表时间）

页数：共12页

页码：92-103

英文信息展示

期刊专题