基于LDA的中文词语相似度计算

引用

摘要：

针对基于语料库统计的词语相似度计算方法存在的一些缺陷,如:计算量大、向量的特征维度高、特征稀疏、忽略了词语的语义信息等,提出了一种基于latent Dirichlet allocation(LDA)的词语相似度计算方法,通过将词语的特征向量映射为词语的主题分布来计算词语间的相似度;通过与基于《知网》的词语相似度计算方法的对比,证明了该方法能有效降低特征维度,并具有较好的词语相似度计算效果.

关键词：词语相似度、latent Dirichlet allocation(LDA)、主题模型

所属期刊栏目：43

分类号：TP391.1(计算技术、计算机技术)

资助基金：中央高校基本科研业务费JD1502

在线出版日期：2016-10-18（万方平台首次上网日期，不代表论文的发表时间）

页码：79-83

英文信息展示

期刊专题