基于短语的维吾尔文文本分类

引用

摘要：

文本特征表示是在文本自动分类中最重要的一个环节.在基于向量空间模型( VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果.对于基于词袋模型(BOW)的维吾尔文文本分类效果不理想的问题,提出了一种基于统计方法的维吾尔语短语抽取算法并将抽取到的短语作为文本特征项,采用支持向量机( SVM)算法对维吾尔文文本进行了分类实验.实验结果表明,与以词为特征的文本分类相比,短语作为文本特征能够提高维吾尔文文本分类的准确率和召回率.

关键词：文本分类、短语抽取、支持向量机、维吾尔语、互信息

所属期刊栏目：32

分类号：TP391.1(计算技术、计算机技术)

资助基金：国家自然科学基金资助项目61063026,61163028

在线出版日期：2012-12-05（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：2923-2926

英文信息展示

期刊专题