基于数据增强的HSE检查纪要命名实体识别
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.16265/j.cnki.issn1003-3033.2022.12.2727

基于数据增强的HSE检查纪要命名实体识别

引用
为解决用深度学习模型对安全检查纪要进行文本挖掘时,面临的数据集规模小、样本数据分布不均衡、命名实体识别(NER)效果差等问题,提出一种新的NER数据增强方法.首先,将数据集中的命名实体分离,并随机替换同类命名实体,避免数据增强技术对命名实体信息的破坏,使命名实体分布更加均匀;然后,通过优化其他部分的噪声数据和比例参数,进一步提高NER的效果;最后,通过自动标注分离后的数据,重新组合,以避免需要手动标注大量数据的弊端.结果表明:该方法可快速解决数据集数据量太小和数据集命名实体分布不均匀等问题;与更简单有效的数据增强(AEDA)方法相比,该方法在健康安全环境(HSE)检查纪要等数据集上取得更好的识别效果,使模型在1倍扩充数据上的综合评价指标从92.83%提升至97.23%;同时,能够得到建筑施工过程中安全隐患在空间上的分布规律和强关联规则.

数据增强、健康安全环境(HSE)、检查纪要、命名实体识别(NER)、安全隐患、文本挖掘

32

X913.4(安全科学基础理论)

国家自然科学基金61703026

2023-04-18(万方平台首次上网日期,不代表论文的发表时间)

共10页

53-62

相关文献
评论
暂无封面信息
查看本期封面目录

中国安全科学学报

1003-3033

11-2865/X

32

2022,32(12)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn