DOI：10.11992/tis.201606009

融合实体特性识别越南语复杂命名实体的混合方法

引用

摘要：

命名实体识别是自然语言处理过程中的基础任务。本文针对越南语的复杂命名实体难识别及F值不够高的问题，提出了一种结合实体库的越南语命名实体识别混合方法。首先，本文根据越南语的语言和实体特点，选取有效的局部特征和全局特征，应用最大熵模型进行越南语命名实体识别；其次，根据本文制定的命名实体的规则进行越南语命名实体识别；然后，结合两者的识别结果，以规则为主，统计为辅原则；最后经过人工校对，把获取到的正确标记的实体加入到实体库，动态扩增实体库，为规则制定和特征选取提供丰富的语料和依据。实验表明，该方法能够有效地结合规则与统计的方法优点，互相弥补不足，明显提高了识别的正确率、召回率和F值。

关键词：越南语、实体库构建、实体识别、最大熵、规则、实体特点、全局特征、局部特征

所属期刊栏目：11

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金项目61262041,61472168,61562052；云南省自然科学基金重点项目2013FA030

在线出版日期：2016-09-26（万方平台首次上网日期，不代表论文的发表时间）

页数：共10页

页码：503-512

英文信息展示

期刊专题