融合实体特性识别越南语复杂命名实体的混合方法
命名实体识别是自然语言处理过程中的基础任务。本文针对越南语的复杂命名实体难识别及F值不够高的问题,提出了一种结合实体库的越南语命名实体识别混合方法。首先,本文根据越南语的语言和实体特点,选取有效的局部特征和全局特征,应用最大熵模型进行越南语命名实体识别;其次,根据本文制定的命名实体的规则进行越南语命名实体识别;然后,结合两者的识别结果,以规则为主,统计为辅原则;最后经过人工校对,把获取到的正确标记的实体加入到实体库,动态扩增实体库,为规则制定和特征选取提供丰富的语料和依据。实验表明,该方法能够有效地结合规则与统计的方法优点,互相弥补不足,明显提高了识别的正确率、召回率和F值。
越南语、实体库构建、实体识别、最大熵、规则、实体特点、全局特征、局部特征
11
TP391(计算技术、计算机技术)
国家自然科学基金项目61262041,61472168,61562052;云南省自然科学基金重点项目2013FA030
2016-09-26(万方平台首次上网日期,不代表论文的发表时间)
共10页
503-512