融合关联规则的学术论文主题学习及表示方法

引用

摘要：

针对现有主题模型学习结果语义可解释性差、准确性不高等问题,提出了一种融合关联规则和学术论文元数据的主题学习及表示方法.将学术论文预处理得到目录元数据;利用目录元数据作为先验知识指导主题学习,得到文档中关于主题的词项概率分布;通过加权关联规则挖掘得到各主题的频繁三项集,提出判断主题质量优劣的标准;利用学术论文的元数据,通过改进的向量空间模型算法,合并语义相似的主题;最终得到更符合实际情况且语义可解释性更优的主题语义表示结果.在同一学术论文数据集上,采用三种主题学习及表示方法进行对比实验.实验结果表明,该方法在主题抽取准确度、主题粒度等方面均优于其他方法,充分验证了所提方法的有效性.

关键词：主题模型、加权关联规则挖掘、学术论文、频繁三项集

所属期刊栏目：54

分类号：TP391.1(计算技术、计算机技术)

资助基金：国家自然科学基金61640204,61562068;内蒙古自然科学基金2017MS0607,2014MS0617;内蒙古师范大学研究生创新基金CXJJS16126

在线出版日期：2018-11-02（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：159-165

期刊专题