结合邻域知识的文档级关键词抽取方法

引用

摘要：

基于编码器-解码器(encoder-decoder)框架的生成式方法在关键词抽取任务上得到了广泛应用并取得了较好的性能,然而该方法面临的主要挑战为建模有效的文档向量表示,及生成覆盖整个文档主题的关键词集合,这些挑战都会直接影响关键词抽取的结果.该文提出了结合邻域知识的文档级关键词抽取模型以应对这些挑战.具体来说,通过给指定文档添加少量的最近邻样本,原文档被扩展为一个文档集合.基于单词之间的距离将文档集合中的每个文档构建成词图,合并集合中的所有词图形成一个大图,然后利用图卷积网络进行编码.解码端引入了上下文修改机制和覆盖机制,使模型能够生成更加多样化的关键词来覆盖文档包含的所有主题.最后在4种数据集上分别与现有的基准模型进行对比,实验结果表明该方法能够有效提升关键词抽取的性能.

关键词：深度学习、编码器-解码器框架、图卷积网络、图神经网络、关键词抽取、邻域知识

所属期刊栏目：50

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金61872278

在线出版日期：2021-08-02（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：551-557

英文信息展示

期刊专题