DOI：10.3969/j.issn.1672-9870.2020.01.015

基于Huffman-LDA和Weight-Word2vec的文本表示模型研究

引用

摘要：

LDA是对主题到文档的全局结构建模,但其特征中缺少文档内部的局部词之间的关系,只能获得稀疏特征.Word2vec是一种基于上下文预测目标词的词嵌入模型,然而,基于这种方法只能以局部信息表示文档特征,缺乏全局信息.LDA和Word2vec的文本表示模型是基于主题向量和文档向量计算新的特征表示文本,但直接计算所得的稀疏主题特征与基于词向量的文档特征的距离,缺乏特征的一致性.本文提出了Huffman-LDA和Weight-Word2vec的文本表示模型,首先,使用LDA模型得到主题向量后构建主题哈夫曼树,再运用梯度上升方法更新主题向量,新的主题向量包含不同主题词之间的关系,求得的特征不再具有稀疏性;然后,使用LDA主题向量与主题矩阵中词的主题特性计算词权重更新Word2vec的词向量,使得词向量包含主题词之间的关系进而表示文档向量;最后,通过主题向量和文档向量的欧式距离得到具有强分类特征的文本表示.实验结果表明,该方法可获得更强的文本表示特征,有效提高文档分类精度.

关键词：主题模型、词嵌入、文本表示、Huffman-LDA、Weight-Word2vec

所属期刊栏目：43

分类号：TP391(计算技术、计算机技术)

资助基金：吉林省重大科技招标项目20170203004GX

在线出版日期：2020-04-10（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：89-96,132

英文信息展示

期刊专题