基于层级注意力模型的无监督文档表示学习

引用

摘要：

许多自然语言应用需要将输入的文本表示成一个固定长度的向量, 现有的技术如词嵌入 (Word Embeddings)和文档表示(Document Representation)为自然语言任务提供特征表示, 但是它们没有考虑句子中每个单词的重要性差别, 同时也忽略一个句子在一篇文档中的重要性差别. 本文提出一个基于层级注意力机制的文档表示模型(HADR), 而且考虑文档中重要的句子和句子中重要的单词因素. 实验结果表明, 在考虑了单词的重要和句子重要性的文档表示具有更好的性能. 该模型在文档(IMBD)的情感分类上的正确率高于Doc2Vec和Word2Vec模型.

关键词：文档表示、词嵌入、注意力、层级、无监督学习、文档分类

所属期刊栏目：27

资助基金：国家自然科学基金61673364

在线出版日期：2018-09-28（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：40-46

英文信息展示

期刊专题