10.3969/j.issn.1003-0077.2005.02.002
利用未标注语料改进实体名识别性能
本文主要介绍了一个利用最大熵进行实体名识别的系统以及所采用的模型和选取的特征.这些特征包括单词本身的词法词态特征和上下文信息.利用这些在任何语言的文本上都极易获得的特征,我们采用最大熵分类器构建了一个基准系统.在此基础上,我们首先通过网络资源建立了实体名词典知识库;并利用词典和基准系统在未标注语料上抽取出现的实体名作为辅助的训练语料;最后再将这些语料加入训练.实验结果表明,辅助的训练语料能够在一定程度上提高系统的性能.
计算机应用、中文信息处理、实体名识别、最大熵、未标注语料
19
TP391(计算技术、计算机技术)
国家自然科学基金60103014;上海市科委资助项目035115028
2005-04-14(万方平台首次上网日期,不代表论文的发表时间)
共6页
7-11,27