10.3969/j.issn.1007-7162.2014.03.016
基于规则的中文时间表达式识别与规范化
为了解决文本时间表达式的识别与规范化问题,针对时间表达式在形式上的多样性与非结构化,提出了对时态元素进行刻画的思想,划分时间表达式类别及规范形式;在此基础上,采用正则表达式与Trie树结构相结合的方式构建出时间短语识别树,自动进行中文时间表达式的识别与分类;最后,提出规范化算法与修正算法处理识别后的结果,得到规范化形式。以中文语料进行实验,中文表达式识别与规范化工作达到较好的效果。
规则、正则表达式、时间表达式识别、规范化
TP393(计算技术、计算机技术)
广东省自然科学基金资助项目S2011040004281,S2013010014457
2014-10-28(万方平台首次上网日期,不代表论文的发表时间)
共7页
88-94