融合全局词语边界特征的中文命名实体识别方法
目前在中文命名实体识别的任务中经常采用有监督的字序列标注模型.我们在实际应用中发现,基于字序列标注模型的中文命名实体识别模型对于词语边界的识别错误是影响识别效果的主要因素之一,边界错误平均占错误结果中的47.5%.该文通过在平均感知机模型中引入全局的词语边界特征,使得人名、地名、机构名识别的F值平均提升了0.04并降低了边界错误占错误结果的比例.
命名实体识别、字序列标注、全局特征、词语边界特征
31
TP391(计算技术、计算机技术)
国家自然科学基金61232010,61100083;国家973课题2012CB316303;国家863课题2012AA011003;国家科技支撑计划2012BAH46B04;国家安全专项2013A140
2017-06-20(万方平台首次上网日期,不代表论文的发表时间)
共6页
86-91