HanNER:一个面向汉语古籍语料命名实体自动抽取的通用框架
万方数据知识服务平台
应用市场
我的应用
会员HOT
万方期刊
×

点击收藏,不怕下次找不到~

@万方数据
会员HOT

期刊专题

10.3772/j.issn.1000-0135.2023.02.007

HanNER:一个面向汉语古籍语料命名实体自动抽取的通用框架

引用
古籍数字化整理是推动我国汉语古籍数据库建设及相关资源整合和利用的基础性工作.作为关键的技术环节之一,面向古籍命名实体的自动化抽取备受国内外学界和业界的关注.但是一些制约汉语古籍实体抽取方法的"卡脖子"问题仍未得到有效解决,包括少样本学习问题、标注成本管理问题和数据质量控制问题.本研究提出了一个面向古籍资源命名实体自动化抽取的通用框架——HanNER,包括"基于规则的实体预标注""基于深度主动学习的迭代实体抽取"以及"人机交互模式下的标注决策"三个主要部分.多组实验比较证明了HanNER的可行性和优势,包括基于深度主动学习模型CNN-BiLSTM-CRF+margin的优势、多功能标注模块"标注查询"与"自动推荐"的积极作用以及ZenCrowd-II算法的优势.最后,本研究基于优化后的BERT-CNN-BiLSTM-CRF模型开发了在线的汉语古籍的实体自动抽取系统.HanNER的提出有利于推进汉语古籍实体抽取工作及相关任务在方法与技术上的发展,而且从工程化角度为古籍实体抽取产品的落地提供了借鉴和启发.

汉语古籍、实体抽取、深度主动学习、交互式标注、标签自动汇聚

42

TP391;G250.74;G4

国家自然科学基金;中国博士后科学基金面上资助项目

2023-04-23(万方平台首次上网日期,不代表论文的发表时间)

共14页

203-216

相关文献
评论
暂无封面信息
查看本期封面目录

情报学报

1000-0135

11-2257/G3

42

2023,42(2)

相关作者
相关机构

专业内容知识聚合服务平台

国家重点研发计划“现代服务业共性关键技术研发及应用示范”重点专项“4.8专业内容知识聚合服务技术研发与创新服务示范”

国家重点研发计划资助 课题编号:2019YFB1406304
National Key R&D Program of China Grant No. 2019YFB1406304

©天津万方数据有限公司 津ICP备20003920号-1

信息网络传播视听节目许可证 许可证号:0108284

网络出版服务许可证:(总)网出证(京)字096号

违法和不良信息举报电话:4000115888    举报邮箱:problem@wanfangdata.com.cn

举报专区:https://www.12377.cn/

客服邮箱:op@wanfangdata.com.cn