基于层级注意力模型的无监督文档表示学习
许多自然语言应用需要将输入的文本表示成一个固定长度的向量, 现有的技术如词嵌入 (Word Embeddings)和文档表示(Document Representation)为自然语言任务提供特征表示, 但是它们没有考虑句子中每个单词的重要性差别, 同时也忽略一个句子在一篇文档中的重要性差别. 本文提出一个基于层级注意力机制的文档表示模型(HADR), 而且考虑文档中重要的句子和句子中重要的单词因素. 实验结果表明, 在考虑了单词的重要和句子重要性的文档表示具有更好的性能. 该模型在文档(IMBD)的情感分类上的正确率高于Doc2Vec和Word2Vec模型.
文档表示、词嵌入、注意力、层级、无监督学习、文档分类
27
国家自然科学基金61673364
2018-09-28(万方平台首次上网日期,不代表论文的发表时间)
共7页
40-46