10.3969/j.issn.1673-629X.2019.03.005
一种基于词加权LDA模型的专利文献分类方法
传统的主题模型在进行文本分类时,特征词多选取统计规律下的高频词,而在专利文献分类中,多数专业词汇往往被高频词所淹没,造成主题模型在专利文献分类的准确率不高.对此,提出一种基于词加权的有监督LDA主题模型用于专利文献的分类.从专业词与高频词的共现关系出发,利用KeyGraph算法选取特征表征能力更优的关键词,再利用互信息函数计算各关键词权重,建立专业词字典.在此基础上,建立一个有监督的LDA模型,将词加权扩展至LDA模型,并采用Gibbs Sampling进行参数估计.在专利文献上进行分类实验,与LDA模型及其两种变型模型相比,该模型分类准确率分别平均提高了4.62%、3.74%和3.26%.表明该模型选取的高区分度的专业词汇与主题关联度更高,分类效率和准确率均有明显提高.
加权模型、LDA、KeyGraph算法、专利文献分类
29
TP18(自动化基础理论)
国家自然科学基金青年项目61203240
2019-05-31(万方平台首次上网日期,不代表论文的发表时间)
共7页
23-29