DOI：10.11896/j.issn.1002-137X.2015.6.048

基于最近邻的主动学习分词方法

引用

摘要：

分词是中文自然语言处理中的一项关键基础技术.为了解决训练样本不足以及获取大量标注样本费时费力的问题,提出了一种基于最近邻规则的主动学习分词方法.使用新提出的选择策略从大量无标注样本中选择最有价值的样本进行标注,再把标注好的样本加入到训练集中,接着使用该集合来训练分词器.最后在PKU数据集、MSR数据集和山西大学数据集上进行测试,并与传统的基于不确定性的选择策略进行比较.实验结果表明,提出的最近邻主动学习方法在进行样本选择时能够选出更有价值的样本,有效降低了人工标注的代价,同时还提高了分词结果的准确率.

关键词：中文分词、主动学习、不确定性取样、最近邻规则

所属期刊栏目：42

分类号：TP311(计算技术、计算机技术)

资助基金：国家自然科学基金61302157;教育部人文社会科学研究青年基金12YJC870008;江苏省教育厅高校哲学社会科学基金2013SJB870004;江苏省社科研究文化精品课题12SWC-030

在线出版日期：2015-07-06（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：228-232,261

英文信息展示

期刊专题