DOI：10.16265/j.cnki.issn1003-3033.2022.12.2727

基于数据增强的HSE检查纪要命名实体识别

引用

摘要：

为解决用深度学习模型对安全检查纪要进行文本挖掘时,面临的数据集规模小、样本数据分布不均衡、命名实体识别(NER)效果差等问题,提出一种新的NER数据增强方法.首先,将数据集中的命名实体分离,并随机替换同类命名实体,避免数据增强技术对命名实体信息的破坏,使命名实体分布更加均匀;然后,通过优化其他部分的噪声数据和比例参数,进一步提高NER的效果;最后,通过自动标注分离后的数据,重新组合,以避免需要手动标注大量数据的弊端.结果表明:该方法可快速解决数据集数据量太小和数据集命名实体分布不均匀等问题;与更简单有效的数据增强(AEDA)方法相比,该方法在健康安全环境(HSE)检查纪要等数据集上取得更好的识别效果,使模型在1倍扩充数据上的综合评价指标从92.83％提升至97.23％;同时,能够得到建筑施工过程中安全隐患在空间上的分布规律和强关联规则.

关键词：数据增强、健康安全环境(HSE)、检查纪要、命名实体识别(NER)、安全隐患、文本挖掘

所属期刊栏目：32

分类号：X913.4(安全科学基础理论)

资助基金：国家自然科学基金61703026

在线出版日期：2023-04-18（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：53-62

英文信息展示

期刊专题