基于多层次注意力机制的远程监督关系抽取模型
实体关系抽取作为信息抽取的主要任务之一,其目的在于确定无结构文本中两个实体的关系类别.目前准确率较高的有监督方法由于需要大量的人工标注语料而受到了限制,而远程监督方法则通过知识库与文本集进行启发式对齐来获取大量关系三元组,这是解决大规模关系抽取任务的主要途径.针对目前远程监督关系抽取的研究未能充分利用句子上下文词语的高层语义,以及未考虑关系之间的依赖包含关系的问题,文中提出了一种基于多层次注意力机制的远程监督关系抽取模型.该模型首先通过双向GRU(Gate Recurrent Unit)神经网络对句子词向量进行编码来获取句子高维语义;其次通过引入词语层注意力来计算两个实体与上下文词语的相关程度,从而充分捕捉句子中实体上下文的语义信息;然后在多个实例上构建句子层的注意力来减少标签错误标注的问题;最后通过关系层的注意力自动学习不同关系之间的依赖包含关系.在FreeBase+NYT公共数据集上的实验结果表明,在双向GRU模型的基础上引入词语层、句子层和关系层注意力机制对提高远程监督关系抽取的效果都起到了促进作用;将三层注意力机制进行融合得到的多层次注意力机制关系抽取模型的准确率和召回率相较于现有的主流方法提高了4% 左右,更好地实现了关系抽取,从而为进一步构建知识图谱、智能问答等应用奠定了理论基础.
远程监督、关系抽取、双向GRU、词向量、注意力机制
46
TP391(计算技术、计算机技术)
国家自然科学基金61602353 ,湖北省自然科学基金2017CFB505
2019-11-22(万方平台首次上网日期,不代表论文的发表时间)
共6页
252-257