基于种子词和数据集的垃圾弹幕屏蔽词典的自动构建
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3969/j.issn.1007-130X.2020.07.020

基于种子词和数据集的垃圾弹幕屏蔽词典的自动构建

引用
随着弹幕视频的流行,弹幕已经成为了互联网时代青年互动交流的一种形式,但随着弹幕数量的增多,如何屏蔽垃圾弹幕成为一个问题.在各类视频网站提出的关键词屏蔽法的基础上,提出了分别基于种子词和数据集的2类屏蔽词典自动构建方法.第1类方法主要采用Google的自然语言处理工具word2vec和PMI,寻找与种子词相似性较大或共现次数较多的词添加到屏蔽词典中去;第2类方法主要采用T F-IDF、LDA主题模型和信息增益IG的方法,从垃圾弹幕数据集中提取关键词来构建屏蔽词典.最后,对所构建的屏蔽词典进行评测,实验结果表明,词典规模在400~500时,弹幕屏蔽效果最好.同时,还考察了LDA主题数和数据集规模等因素对弹幕屏蔽效果的影响.

弹幕、关键词屏蔽、屏蔽词典、种子词

42

TP391.1(计算技术、计算机技术)

2020-07-31(万方平台首次上网日期,不代表论文的发表时间)

共7页

1302-1308

相关文献
评论
暂无封面信息
查看本期封面目录

计算机工程与科学

1007-130X

43-1258/TP

42

2020,42(7)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn