10.16157/j.issn.0258-7998.233942
基于预训练模型的基层治理敏感实体识别方法
基层治理产生的大量敏感数据可通过数据脱敏去除隐私内容,但这些数据包含较多非结构化文本数据,难以直接进行数据脱敏.因此,需要对非结构化文本数据进行命名实体识别以提取敏感数据.首先把敏感实体分为16类并对信访文本进行标注,输入层表示采用预训练模型BERT,编码层利用双向长短时记忆网络汲取上下文信息,解码层通过条件随机场模型优化序列,构建了较高精度的基层治理敏感实体识别模型.针对脱敏工作需要,改变假阴性和假阳性的loss权重,并采用敏感实体框选率辅助评价模型性能.在基层治理信访数据集和公共数据集MSRA上进行实验,F1值分别为88.38%和90.11%,相较于基准模型提升了4.64%和3.78%.该模型可应用于非结构化文本的敏感实体识别,识别成功率高.现有评价指标未能较好地反映敏感实体的间接推理关系,应当探索更完善的敏感实体评价体系.
预训练语言模型、基层治理、中文命名实体识别、数据脱敏
49
TP391.1(计算技术、计算机技术)
2023-09-28(万方平台首次上网日期,不代表论文的发表时间)
共6页
109-114