10.3969/j.issn.1671-1122.2017.03.008
基于图结构的文本表示方法研究
针对空间向量模型孤立地看待每个词表示文本缺少结构化信息的问题,文章提出基于图结构的融合主题模型LDA和深度学习降噪自动编码机文本表示的方法.该方法在保有词袋模型信息的基础上,引入词与词之间顺序的信息,构造一个统一维度的二维矩阵,利用LDA主题与词的概率关系,索引原始矩阵中的主要信息,训练降噪自动编码机模型,获得最终的文本表示.基于公开数据源20Newsgroup的20个类别的新闻组,采用分类的方法验证文本表示的结果.结果表明,文中方法在1-NN和SVM分类方法上,F-值均高于其他对比的文本表示方法.因此,引入词与词之间顺序的信息可以丰富句子的含义,增强理解文本内容的深层语义,有效提高文本的分类应用效果.
文本表示、深度学习、降噪自动编码机、主题模型、文本分类
TP309(计算技术、计算机技术)
国家242信息安全计划2005C48
2017-04-24(万方平台首次上网日期,不代表论文的发表时间)
共7页
46-52