10.3969/j.issn.1003-0077.2022.01.011
基于BERT-RCNN的中文违规评论识别研究
以网络暴力为主的恶意攻击行为已经导致多起恶性事件发生,违规评论问题引起了社会广泛关注.当前违规评论检测手段主要是依靠敏感词屏蔽的方式,这种方式无法有效识别不含低俗用语的恶意评论.该文通过爬虫及人工标注的方式建立一个中文违规评论数据集,采用BERT预训练模型进行词嵌入操作,以保留文本隐含的语义信息.在BERT基础上再利用结合注意力机制的RCNN进一步提取评论的上下文特征,并加入多任务学习联合训练提升模型分类精度及泛化能力.该模型不再完全依赖敏感词库.实验结果表明,该文提出的模型相比传统模型可以更好地理解语义信息,利于发现潜在恶意.该文模型在识别中文违规评论数据集时精确率达到了 94.24%,比传统TextRNN高8.42%,比结合注意力机制的TextRNN高6.92%.
违规评论识别、迁移学习、BERT预训练模型
36
TP391(计算技术、计算机技术)
浙江省公益性技术应用研究计划2017C33001
2022-05-07(万方平台首次上网日期,不代表论文的发表时间)
共12页
92-103