10.3969/j.issn.1000-7024.2007.05.052
基于XML的政府公文信息抽取中间件的设计与实现
超文本信息抽取是Internet信息重组的重要手段.通过对政府公文信息格式进行了研究,提出了一种基于XML的信息抽取中间件模型,通过基于串匹配与串频统计相结合的分词处理、利用遗传算法的词类标注以及基于改进的隐马尔科夫模型的XML模板自动填充,可以快速的对Internet上的政府公文信息进行信息重组,以供相关应用系统使用.
政府公文、信息抽取、中间件、分词处理、词类标注、模板填充
28
TP391.1(计算技术、计算机技术)
深圳市科学与信息局科技基金05KJCD020
2007-04-23(万方平台首次上网日期,不代表论文的发表时间)
共3页
1158-1160