10.19678/j.issn.1000-3428.0067003
基于长尾分类算法的网络不良信息分类
目前已有的网络不良信息分类方法大多忽略了数据不平衡、数据存在长尾分布的情况,使得模型在分类时偏向于数据量多的样本,无法很好地识别数据量少的样本,从而导致整体识别精度下降.针对该问题,提出一种用于长尾不良信息数据集的分类方法LTIC.将小样本学习与知识转移策略相结合,使用BERT模型学习头部类的权重,通过专门为小样本学习而提出的Prototyper网络得到头部类的原型,将头尾数据分开处理,从而避免一起训练而导致的数据不平衡问题.学习从原型到权重的映射关系,利用学到的知识将尾部类的原型转换为权重,然后连接头部类权重和尾部类权重得到最终的分类结果.实验结果表明:LTIC方法在Twitter和THUCNews数据集上分别达到82.7%和83.5%的分类准确率,且F1值相较非长尾模型有显著提升,有效提高了模型分类精度;与目前较新的长尾数据集分类方法BNN、OLTR等相比,该方法具有更好的分类效果,平均准确率提升了 3%;当新的不良信息类别出现时,LTIC方法只需少量计算就可对其进行预测,准确率达到70%,具有良好的扩展性.
不良信息分类、数据不平衡、长尾数据集、小样本学习、知识转移
49
TP391(计算技术、计算机技术)
国家自然科学基金;国家重点研发计划
2023-10-11(万方平台首次上网日期,不代表论文的发表时间)
共8页
13-19,28