10.3969/j.issn.1673-629X.2022.10.021
面向特定领域文本的重叠关系语料库构建方法
实体关系语料库是信息抽取领域的基础数据资源,其规模和质量直接影响信息抽取深度学习模型的效果.目前建立的特定领域语料库在重叠关系方面的研究较少,且现有方法需要高昂的人工标注成本.该文融合已有的基于实体识别和触发词规则的语料标注算法,基于自定义关系schema实现网络文本中重叠关系的自动标注.首先,借助特定领域专业词典进行命名实体识别,构造命名实体集;然后根据自定义关系模式schema和依存句法分析进行特征词聚类,构造触发词词典;最后,基于命名实体集和触发词词典进行语料回标.该算法有效减少了人工标注量,标注速度快,标注后的语料规模较大,有效提取重叠关系信息,为特定领域信息抽取扩充语料库提供了可行方案.同时,该文探讨了数据源可用性,评价了标注质量并对语料库进行了统计分析.实验结果显示,该方法总体回标成功率为76.7%,总体关系标注准确率为85.8%,利用基础重叠关系抽取模型进行实验,实验结果F1值达到93.68%.
实体关系、信息抽取、语料库构建、schema、触发词
32
TP391(计算技术、计算机技术)
国家自然科学基金61806221
2022-10-31(万方平台首次上网日期,不代表论文的发表时间)
共6页
126-131