DOI：10.3969/j.issn.1673-629X.2019.03.005

一种基于词加权LDA模型的专利文献分类方法

引用

摘要：

传统的主题模型在进行文本分类时,特征词多选取统计规律下的高频词,而在专利文献分类中,多数专业词汇往往被高频词所淹没,造成主题模型在专利文献分类的准确率不高.对此,提出一种基于词加权的有监督LDA主题模型用于专利文献的分类.从专业词与高频词的共现关系出发,利用KeyGraph算法选取特征表征能力更优的关键词,再利用互信息函数计算各关键词权重,建立专业词字典.在此基础上,建立一个有监督的LDA模型,将词加权扩展至LDA模型,并采用Gibbs Sampling进行参数估计.在专利文献上进行分类实验,与LDA模型及其两种变型模型相比,该模型分类准确率分别平均提高了4.62％、3.74％和3.26％.表明该模型选取的高区分度的专业词汇与主题关联度更高,分类效率和准确率均有明显提高.

关键词：加权模型、LDA、KeyGraph算法、专利文献分类

所属期刊栏目：29

分类号：TP18(自动化基础理论)

资助基金：国家自然科学基金青年项目61203240

在线出版日期：2019-05-31（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：23-29

英文信息展示

期刊专题