基于委员会投票的主动学习中文分词方法

引用

摘要：

主动学习方法可以减少人工标注海量数据时的代价,因此在中文信息处理领域中具有非常重要的作用.文章提出了一种基于委员会投票的主动学习分词方法.该方法的核心思想就是利用Bagging算法构建委员会并对其进行投票,然后采用新的样本选择策略,选择样本进行人工标注.最后采用主动学习中文分词方法与利用投票选择样本的主动学习中文分词方法在3个数据集上进行了实验,实验结果表明文章提出的方法不仅可以用于中文分词,而且能够取得更好的分词效果.

关键词：委员会投票、中文分词、主动学习

分类号：TP391;TP181;TN957.51

资助基金：教育部人文社会科学研究项目;江苏省社会科学研究文化精品课题

在线出版日期：2016-05-09（万方平台首次上网日期，不代表论文的发表时间）

页码：36-40,70

期刊专题