DOI：10.3969/j.issn.1671-1122.2020.09.022

基于ALBERT动态词向量的垃圾邮件过滤模型

引用

摘要：

针对垃圾邮件分类问题中词向量学习不充分的问题,文章引入ALBERT动态词向量生成模型,并提出一种将ALBERT动态词向量与循环神经网络相结合的ALBERT-RNN模型.利用公开的垃圾邮件数据集(TEC06C),对传统统计学模型与4种不同RNN结构的ALBERT-RNN模型进行了对比实验,并用Focal Loss方法对交叉熵损失函数进行了优化.实验结果表明,使用Focal Loss优化的ALBERT-LSTM模型在TEC06C数据集上达到了较高的准确率(99.13％).

关键词：中文垃圾邮件、循环神经网络、ALBERT模型、动态词向量

分类号：TP309(计算技术、计算机技术)

资助基金：公安部技术研究计划竞争性遴选项目[2019JZX009;公安部科技强警技术专项[2018GABJC03;河南省高等学校重点科研项目计划[20B520008

在线出版日期：2020-11-02（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：107-111

英文信息展示

期刊专题