10.3321/j.issn:1002-8331.2004.16.019
面向答疑文本的词类标注方法的研究与实现
针对已有词类标注方法在标注网络答疑文本时存在的不足,文章提出了一种面向自然语言答疑文本的词类标注方法.该方法根据答疑文本的特点和后续关键信息提取的需要,对已有的词类标记集进行了扩展;用统计方法标注答疑真实文本,将其结果与正确结果相比较,从中获取词类排歧规则,使规则具有较强的文本针对性,以提高规则排歧的精度;对规则进行分类和优化,提高了标注的速度;采用先规则后统计的标注方法,较好地解决了答疑文本中规则和统计方法的组合问题.目前,该方法已在基于自然语言的网络答疑系统(Natural Language Oriented Web Answer System,,简称NL_WAS)中实现并得到了初步应用.
答疑文本、词类标注、领域词、问句特征词
40
TP311(计算技术、计算机技术)
国家自然科学基金60103022;重庆市科技攻关项目2001BA101AO1;教育部优秀青年教师资助计划
2004-07-09(万方平台首次上网日期,不代表论文的发表时间)
共5页
57-60,74