基于长尾分类算法的网络不良信息分类

引用

摘要：

目前已有的网络不良信息分类方法大多忽略了数据不平衡、数据存在长尾分布的情况,使得模型在分类时偏向于数据量多的样本,无法很好地识别数据量少的样本,从而导致整体识别精度下降.针对该问题,提出一种用于长尾不良信息数据集的分类方法LTIC.将小样本学习与知识转移策略相结合,使用BERT模型学习头部类的权重,通过专门为小样本学习而提出的Prototyper网络得到头部类的原型,将头尾数据分开处理,从而避免一起训练而导致的数据不平衡问题.学习从原型到权重的映射关系,利用学到的知识将尾部类的原型转换为权重,然后连接头部类权重和尾部类权重得到最终的分类结果.实验结果表明:LTIC方法在Twitter和THUCNews数据集上分别达到82.7％和83.5％的分类准确率,且F1值相较非长尾模型有显著提升,有效提高了模型分类精度;与目前较新的长尾数据集分类方法BNN、OLTR等相比,该方法具有更好的分类效果,平均准确率提升了 3％;当新的不良信息类别出现时,LTIC方法只需少量计算就可对其进行预测,准确率达到70％,具有良好的扩展性.

关键词：不良信息分类、数据不平衡、长尾数据集、小样本学习、知识转移

所属期刊栏目：49

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金;国家重点研发计划

在线出版日期：2023-10-11（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：13-19,28

英文信息展示

期刊专题