10.3778/j.issn.1002-8331.2205-0518
新冠文本实体关系抽取及数据集构建方法研究
实体关系抽取可有效地获取文本中的关键信息,利用新冠文本中的关键信息有助于切断疫情传播途径,发掘疫情传播源头.但该领域没有适合的公开有标注的数据集,针对该问题,通过分析新冠文本的语义表示和结构特点,提出一种针对新冠文本的实体关系定义,并根据实体关系定义对收集的数据进行实体标注和关系标注,在标注完成后,通过数据预处理等操作生成新冠文本实体关系抽取数据集.与公开数据集相比,该领域的数据集本文实体和关系分布较为密集,单一神经网络模型特征抽取能力较差,因此采用多种神经网络模型拼接的方法构建命名实体识别模型和关系抽取模型.通过模型的结果对数据集进行实验验证,实验结果证明该数据集可以应用于该领域的实体关系抽取任务.
数据集、实体关系定义、数据标注、双向循环神经网络、卷积神经网络
59
TP391.1(计算技术、计算机技术)
国家自然科学基金;河北省高等学校科学技术研究项目;河北省高等学校科学技术研究项目
2023-04-27(万方平台首次上网日期,不代表论文的发表时间)
共8页
97-104