一种基于加权LDA模型和多粒度的文本特征选择方法

引用

摘要：

[目的]为改善图书和期刊书目信息的分类性能,结合书目文本的体例结构特点,提出一种基于加权LDA模型和多粒度的文本特征选择方法.[方法]在点互信息(PMI)模型的基础上,结合词性、位置等要素修正特征词的权重并扩展至LDA的生成模型中,以抽取表意性较强的粗粒度特征:结合TF-IDF计算模型采用一定策略获取细粒度特征,基于多粒度特征作为核心特征词集表征书目文本;采用KNN、SVM等算法实现书目文本的分类.[结果]在自建图书、期刊材料上进行分类实验,与LDA方法以及传统特征选择方法相比,该方法分类准确率分别平均提高3.60％和4.79％.[局限]实验材料的数量以及丰富度有待进一步扩展;需探索更多的加权策略模型进行实验,以提高书目文本的分类效果.[结论]实验结果表明,该方法是有效的、可行的,能够提高特征选择后的特征词集对文本的表示能力,从而提高文本分类的准确率.

关键词：书目信息、加权LDA模型、多粒度特征、文本分类、特征选择

分类号：TP391(计算技术、计算机技术)

在线出版日期：2015-05-28（万方平台首次上网日期，不代表论文的发表时间）

页码：42-49

英文信息展示

期刊专题