基于长尾分类算法的网络不良信息分类
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.19678/j.issn.1000-3428.0067003

基于长尾分类算法的网络不良信息分类

引用
目前已有的网络不良信息分类方法大多忽略了数据不平衡、数据存在长尾分布的情况,使得模型在分类时偏向于数据量多的样本,无法很好地识别数据量少的样本,从而导致整体识别精度下降.针对该问题,提出一种用于长尾不良信息数据集的分类方法LTIC.将小样本学习与知识转移策略相结合,使用BERT模型学习头部类的权重,通过专门为小样本学习而提出的Prototyper网络得到头部类的原型,将头尾数据分开处理,从而避免一起训练而导致的数据不平衡问题.学习从原型到权重的映射关系,利用学到的知识将尾部类的原型转换为权重,然后连接头部类权重和尾部类权重得到最终的分类结果.实验结果表明:LTIC方法在Twitter和THUCNews数据集上分别达到82.7%和83.5%的分类准确率,且F1值相较非长尾模型有显著提升,有效提高了模型分类精度;与目前较新的长尾数据集分类方法BNN、OLTR等相比,该方法具有更好的分类效果,平均准确率提升了 3%;当新的不良信息类别出现时,LTIC方法只需少量计算就可对其进行预测,准确率达到70%,具有良好的扩展性.

不良信息分类、数据不平衡、长尾数据集、小样本学习、知识转移

49

TP391(计算技术、计算机技术)

国家自然科学基金;国家重点研发计划

2023-10-11(万方平台首次上网日期,不代表论文的发表时间)

共8页

13-19,28

相关文献
评论
暂无封面信息
查看本期封面目录

计算机工程

1000-3428

31-1289/TP

49

2023,49(8)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn