匹配树和决策树方法识别英语句子中的BaseNP
提出了语料库和机器学习相结合的方法识别英语句子中的简单的、非递归的名词短语(BaseNP).在含有词性标注和BaseNP边界标注的训练语料中,抽取所有不同类型BaseNP短语对应的词性序列(BaseNP规则),通过规则排序和语言学知识,对其中正确率低且明显不符合语法的规则进行剔除. 在识别时,采取规则匹配树的方法进行最大长度匹配,通过归纳机器学习C4.5算法引入上下文信息,由C4.5算法学习出有效(或无效)应用BaseNP规则的条件,参照上下文条件,约束应用BaseNP规则.实验结果表明,提出的方法具有很高的正确率和召回率.
BaseNP、名词短语、匹配树、决策树
37
TP18(自动化基础理论)
中国科学院资助项目;新材料领域项目
2004-01-08(万方平台首次上网日期,不代表论文的发表时间)
共7页
826-832