基于预训练模型的基层治理敏感实体识别方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.16157/j.issn.0258-7998.233942

基于预训练模型的基层治理敏感实体识别方法

引用
基层治理产生的大量敏感数据可通过数据脱敏去除隐私内容,但这些数据包含较多非结构化文本数据,难以直接进行数据脱敏.因此,需要对非结构化文本数据进行命名实体识别以提取敏感数据.首先把敏感实体分为16类并对信访文本进行标注,输入层表示采用预训练模型BERT,编码层利用双向长短时记忆网络汲取上下文信息,解码层通过条件随机场模型优化序列,构建了较高精度的基层治理敏感实体识别模型.针对脱敏工作需要,改变假阴性和假阳性的loss权重,并采用敏感实体框选率辅助评价模型性能.在基层治理信访数据集和公共数据集MSRA上进行实验,F1值分别为88.38%和90.11%,相较于基准模型提升了4.64%和3.78%.该模型可应用于非结构化文本的敏感实体识别,识别成功率高.现有评价指标未能较好地反映敏感实体的间接推理关系,应当探索更完善的敏感实体评价体系.

预训练语言模型、基层治理、中文命名实体识别、数据脱敏

49

TP391.1(计算技术、计算机技术)

2023-09-28(万方平台首次上网日期,不代表论文的发表时间)

共6页

109-114

相关文献
评论
暂无封面信息
查看本期封面目录

电子技术应用

0258-7998

11-2305/TN

49

2023,49(9)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn