基于LDA模型的文本相似度研究

引用

摘要：

LDA主题模型是近年来提出的一种具有文本表示能力的非监督学习模型。考虑到传统主题模型在处理大规模文本时存在的局限性，文中提出一种基于LDA模型的文本相似度计算方法。利用LDA为语料库建模，通过Gibbs抽样间接估算模型参数，将文本表示为固定隐含主题集上的概率分布，以此计算文本之间的相似度。最后将K-means算法作为文本相似度的评估指标。实验结果表明，与LSI模型相比，该方法能有效地提高文本相似度计算的准确性和文本聚类效果。

关键词：文本挖掘、LDA模型、Gibbs抽样、文本相似度

所属期刊栏目：26

分类号：TP301(计算技术、计算机技术)

资助基金：湖北省高等学校优秀中青年团队计划项目T201206;湖北省智能机器人重点实验室开放基金HBIR201409

在线出版日期：2016-05-25（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：82-85,89

英文信息展示

期刊专题