10.3969/j.issn.1673-629X.2021.12.005
面向政府公文的关系抽取方法研究
政府公文内容多,涉及范围广,从中挖掘出有价值的信息,可减轻政府工作人员的压力,比如应用实体关系抽取技术挖掘人事信息.采用远程监督的关系抽取方法可以减少人工标注成本,提高关系抽取效率,进而保证了获取重要信息的质量和实效性.该文提出一种ALBERT预训练语言模型和胶囊网络相结合的远程监督实体关系抽取方法,抽取公文中的人名职务关系.ALBERT通过字嵌入和位置嵌入的方式,提取文本中深层的语义信息,胶囊网络通过传输低层到高层的特征,提高关系分类效果.实验结果表明,提出的关系抽取模型的准确率、召回率、F1值均高于基线方法,能够有效提高关系抽取性能,解决公文领域标注数据集少的问题.该方法所获实例可扩充现有公文领域知识库,可以辅助政府工作人员在书写公文时快速获取人事信息,避免信息传递错误.
实体关系抽取;远程监督;ALBERT;预训练语言模型;胶囊网络
31
TP391(计算技术、计算机技术)
国家重点研发计划2018YFB1004100
2022-01-10(万方平台首次上网日期,不代表论文的发表时间)
共7页
26-32