中文人称名词短语单复数自动识别
名词短语的单复数信息在共指消解中是必不可少的特征.与英语不同,中文属于汉藏语系,名词本身不能明显体现单复数信息,需要借助其所在的名词短语来进行体现.本文在自动内容抽取(Automatic content extraction,ACE)语料上抽取得到人称名词短语的单复数信息,分别采用了基于规则和机器学习的方法来进行人称名词短语的单复数自动识别.基于规则的方法,在一些知识资源的基础上定义了规则模板库,每条规则采用槽和槽值的方法来进行体现;机器学习方法采用最大熵模型组合考察了词形、词性、词义、数量关系等特征.两种方法分别达到了48.24%和87.48%的正确率.实验结果显示,基于规则的方法能够保证精确率而不能保证召回率,机器学习的方法可以更好地完成单复数信息的识别任务.
人称名词短语、单复数、机器学习
34
TP391(计算技术、计算机技术)
国家自然科学基金60575042,60503072;国家高技术研究发展计划863计划2006AA01Z145
2008-09-24(万方平台首次上网日期,不代表论文的发表时间)
共8页
972-979