DOI：10.3969/j.issn.1673-629X.2018.08.001

基于频繁词网络的LDA最优主题个数选取方法

引用

摘要：

LDA(latent Dirichlet allocation,隐含狄利克雷分布)主题模型被广泛应用于大规模文档处理,通常用于主题提取、情感分析和文本降维等.这些模型使用类似期望最大算法从文档集合中提取低维语义分布,并将每一维分布有效结合,形成主题.在模型构建过程中,初始主题数K对迭代过程与结果非常重要.针对这一问题,根据文档聚类簇数(即社区个数)与文档集隐含主题数相一致的特点,提出了一种以频繁词集网络的社区划分个数用来指定LDA主题模型主题输入个数的方法.该方法对文档构建频繁词对,并以此为基础构建词共现网络,然后采用无监督社区划分算法对该词共现网络进行社区划分,并以划分的社区个数作为LDA主题模型的主题个数.实验结果表明,该方法可以自动化指定主题个数K,显著提升主题查准率和查全率,主题独立性更强.

关键词：隐含狄利克雷分布、主题模型、频繁词网络、聚类、社区划分

所属期刊栏目：28

分类号：TP393(计算技术、计算机技术)

资助基金：国家自然科学基金K13A300050

在线出版日期：2018-09-04（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：1-5

英文信息展示

期刊专题