DOI：10.11992/tis.201711007

基于支持向量的最近邻文本分类方法

引用

摘要：

文本分类为一个文档自动分配一组预定义的类别或主题.文本分类中,文档的表示对学习机的学习性能有很大的影响.以实现哈萨克语文本分类为目的,根据哈萨克语语法规则设计实现哈萨克语文本的词干提取,完成哈萨克语文本的预处理.提出基于最近支持向量机的样本距离公式,避免k参数的选定,以SVM与KNN分类算法的特殊组合算法(SV-NN)实现了哈萨克语文本的分类.结合自己构建的哈萨克语文本语料库的语料进行文本分类仿真实验,数值实验展示了提出算法的有效性并证实了理论结果.

关键词：词干提取、预处理、支持向量机、文本分类、分类精度

所属期刊栏目：13

分类号：TP309(计算技术、计算机技术)

资助基金：伊犁师范学院一般项目2016WXYB0004;国家自然科学基金项目61663045;新疆高校科研计划重点研究项目XJEDU2014I043;伊犁师范学院重点项目2016YSZD04

在线出版日期：2018-09-30（万方平台首次上网日期，不代表论文的发表时间）

页数：共9页

页码：799-807

英文信息展示

期刊专题