面向法律文本的三元组抽取模型

引用

摘要：

在中国裁判文书网上的开源刑事判决文档中蕴藏着重要的法律信息,但刑事判决书文档通常以自然语言的形式进行记录,而机器难以直接理解文档中的内容.为使由自然语言记录的非结构化刑事判决书文本转化为结构化三元组形式,构建一种面向法律文本的司法三元组抽取模型.将三元组抽取过程看作二阶段流水线结构,利用预训练的基于Transformer的双向编码器表示模型先进行命名实体识别,再将识别结果应用于关系抽取阶段得到相应的三元组表示,从而实现对非结构化刑事判决书文本的信息提取.实验结果表明,在经过人工标注的刑事判决书数据集上,该模型相比基于循环神经网络的组合模型的F1值提高了28.1个百分点,具有更优的三元组抽取性能.

关键词：命名实体识别、关系抽取、预训练语言模型、Transformer编码器、流水线结构

所属期刊栏目：47

分类号：TP391(计算技术、计算机技术)

资助基金：国家重点研发计划2018YFC0830603

在线出版日期：2021-05-17（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：277-284

英文信息展示

期刊专题