DOI：10.3969/j.issn.1003-0077.2017.06.024

基于优化样本分布抽样集成学习的半监督文本分类方法研究

引用

摘要：

针对现有文本分类方法在即时性文本信息上面临的挑战,考虑到即时性文本信息具有已标注数据规模小的特点,为了提高半监督学习的分类性能,该文提出一种基于优化样本分布抽样集成学习的半监督文本分类方法.首先,通过运用一种新的样本抽样的优化策略,获取多个新的子分类器训练集,以增加训练集之间的多样性和减少噪声的扩散范围,从而提高分类器的总体泛化能力;然后,采用基于置信度相乘的投票机制对预测结果进行集成,对未标注数据进行标注;最后,选取适量的数据来更新训练模型.实验结果表明,该方法在长文本和短文本上都取得了优于研究进展方法的分类性能.

关键词：文本分类、半监督学习、集成学习、样本抽样策略

所属期刊栏目：31

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金71472068;广东省大学生创新训练计划201510564281

在线出版日期：2018-06-01（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：180-189

英文信息展示

期刊专题