10.3969/j.issn.1000-5641.2021.05.002
针对命名实体识别的数据增强技术
近年来,深度学习方法被广泛地应用于命名实体识别任务中,并取得了良好的效果.但是主流的命名实体识别都是基于序列标注的方法,这类方法依赖于足够的高质量标注语料.然而序列数据的标注成本高昂,导致命名实体识别训练集规模往往较小,这严重地限制了命名实体识别模型的最终性能.为了在不增加人工成本的前提下扩大命名实体识别的训练集规模,本文分别提出了基于EDA(Easy Data Augmentation)、基于远程监督、基于Bootstrap(自展法)的命名实体识别数据增强技术.通过在本文给出的FIND-2019数据集上进行的实验表明,这几种数据增强技术及其它们的组合能够低成本地增加训练集的规模,从而显著地提升命名实体识别模型的性能.
命名实体识别;数据增强;EDA;远程监督;Bootstrap
TP311(计算技术、计算机技术)
国家自然科学基金;中央高校基本科研业务费专项;上海市核心数学与实践重点实验室资助项目
2021-11-12(万方平台首次上网日期,不代表论文的发表时间)
共10页
14-23