面向特定领域文本的重叠关系语料库构建方法
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3969/j.issn.1673-629X.2022.10.021

面向特定领域文本的重叠关系语料库构建方法

引用
实体关系语料库是信息抽取领域的基础数据资源,其规模和质量直接影响信息抽取深度学习模型的效果.目前建立的特定领域语料库在重叠关系方面的研究较少,且现有方法需要高昂的人工标注成本.该文融合已有的基于实体识别和触发词规则的语料标注算法,基于自定义关系schema实现网络文本中重叠关系的自动标注.首先,借助特定领域专业词典进行命名实体识别,构造命名实体集;然后根据自定义关系模式schema和依存句法分析进行特征词聚类,构造触发词词典;最后,基于命名实体集和触发词词典进行语料回标.该算法有效减少了人工标注量,标注速度快,标注后的语料规模较大,有效提取重叠关系信息,为特定领域信息抽取扩充语料库提供了可行方案.同时,该文探讨了数据源可用性,评价了标注质量并对语料库进行了统计分析.实验结果显示,该方法总体回标成功率为76.7%,总体关系标注准确率为85.8%,利用基础重叠关系抽取模型进行实验,实验结果F1值达到93.68%.

实体关系、信息抽取、语料库构建、schema、触发词

32

TP391(计算技术、计算机技术)

国家自然科学基金61806221

2022-10-31(万方平台首次上网日期,不代表论文的发表时间)

共6页

126-131

相关文献
评论
暂无封面信息
查看本期封面目录

计算机技术与发展

1673-629X

61-1450/TP

32

2022,32(10)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn