10.3778/j.issn.1673-9418.1912048
上下文感知与层级注意力网络的文档分类方法
文档分类是自然语言处理(NLP)领域中的一个基本问题.近年来,尽管针对这一问题的层级注意力网络已经取得了进展,但由于每条句子被独立编码,使得模型中使用的双向编码器仅能考虑到所编码句子的相邻句子,仍然集中于当前所编码的句子,并没有有效地将文档结构知识整合到体系结构中.针对此问题,提出一种上下文感知与层级注意力网络的文档分类方法(CAHAN).该方法采用分层结构来表示文档的层次结构,使用注意力机制考虑文档中重要的句子和句子中重要的单词因素,在单词级和句子级不仅依赖双向编码器来获取上下文信息,还通过在单词级注意机制中引入上下文向量,使单词级编码器基于上下文信息做出注意决策全面获取文本的上下文信息,从而提取出深度文档特征.此外,还利用门控机制准确地决定应该考虑多少上下文信息.在两个标准数据集上的实验结果表明,提出的CAHAN模型较长短时记忆网络(LSTM)、卷积神经网络(CNN)、分层注意网络(HAN)等模型分类效果更好,能够提高文档分类任务的准确度.
自然语言处理(NLP)、文档分类、上下文感知、层级注意力、门控机制
15
TP391(计算技术、计算机技术)
2021-02-05(万方平台首次上网日期,不代表论文的发表时间)
共10页
305-314