10.3969/j.issn.1673-629X.2016.04.18
基于LDA模型的文本相似度研究
LDA主题模型是近年来提出的一种具有文本表示能力的非监督学习模型。考虑到传统主题模型在处理大规模文本时存在的局限性,文中提出一种基于LDA模型的文本相似度计算方法。利用LDA为语料库建模,通过Gibbs抽样间接估算模型参数,将文本表示为固定隐含主题集上的概率分布,以此计算文本之间的相似度。最后将K-means算法作为文本相似度的评估指标。实验结果表明,与LSI模型相比,该方法能有效地提高文本相似度计算的准确性和文本聚类效果。
文本挖掘、LDA模型、Gibbs抽样、文本相似度
26
TP301(计算技术、计算机技术)
湖北省高等学校优秀中青年团队计划项目T201206;湖北省智能机器人重点实验室开放基金HBIR201409
2016-05-25(万方平台首次上网日期,不代表论文的发表时间)
共5页
82-85,89