DOI：10.3969/j.issn.1002-2279.2019.01.006

一种非完全标注的文本分类训练方法

引用

摘要：

针对传统方法中性能与精度的不足,通过最优类别分组和遗传算法,提出一种非完全标注的文本分类训练方法.新方法能将原来的分类体系拆分成多个分类体系,使得每个分类体系下的类别彼此互斥.在每个拆分出的分类体系下,对数据进行训练,可提高分类器的精度.通过多个分类器并联,分别输出样本对应的类别,得到样本实际所属的所有类别.仿真实验表明,该方法可有效地解决当前分类体系下,非完全标注的文本分类器无法有效的识别出非完全标注文本类别与其它类别的边界,从而造成数据分类性能低下等问题.

关键词：文本分类、非完全标注、最优分组、训练方法

所属期刊栏目：40

分类号：TP391.1(计算技术、计算机技术)

资助基金：国家自然科学基金项目61672433;深圳市科创委基础研究项目201703063000511,201703063000517;国家密码发展基金MMJJ20170210;国家电网公司科技项目522722180007

在线出版日期：2019-04-18（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：20-24

英文信息展示

期刊专题