DOI：10.3969/j.issn.1673-629X.2022.10.021

面向特定领域文本的重叠关系语料库构建方法

引用

摘要：

实体关系语料库是信息抽取领域的基础数据资源,其规模和质量直接影响信息抽取深度学习模型的效果.目前建立的特定领域语料库在重叠关系方面的研究较少,且现有方法需要高昂的人工标注成本.该文融合已有的基于实体识别和触发词规则的语料标注算法,基于自定义关系schema实现网络文本中重叠关系的自动标注.首先,借助特定领域专业词典进行命名实体识别,构造命名实体集;然后根据自定义关系模式schema和依存句法分析进行特征词聚类,构造触发词词典;最后,基于命名实体集和触发词词典进行语料回标.该算法有效减少了人工标注量,标注速度快,标注后的语料规模较大,有效提取重叠关系信息,为特定领域信息抽取扩充语料库提供了可行方案.同时,该文探讨了数据源可用性,评价了标注质量并对语料库进行了统计分析.实验结果显示,该方法总体回标成功率为76.7％,总体关系标注准确率为85.8％,利用基础重叠关系抽取模型进行实验,实验结果F1值达到93.68％.

关键词：实体关系、信息抽取、语料库构建、schema、触发词

所属期刊栏目：32

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金61806221

在线出版日期：2022-10-31（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：126-131

英文信息展示

期刊专题