10.3969/j.issn.1000-3428.2010.06.001
通用文本处理方法的研究与设计
设计描述通用文本处理逻辑的规则以及执行规则的引擎,使开发文本处理程序简化为开发应用规则.用XML描述规则的数据模型,规则元素包括原子规则、规则集、前置条件和数据上下文,在规则中用正则表达式实现文本匹配,用转义符和脚本语言实现多种转换逻辑.利用该方法进行Web主题文本提取,验证了规则的合理性和引擎的有效性.
文本处理、正则表达式、脚本语言
36
TP391.1(计算技术、计算机技术)
国家自然科学基金资助项目10601029;北京市教育委员会共建基金资助项目TS2047
2010-05-24(万方平台首次上网日期,不代表论文的发表时间)
共4页
1-4