DOI：10.3969/j.issn.1000-7024.2007.05.052

基于XML的政府公文信息抽取中间件的设计与实现

引用

摘要：

超文本信息抽取是Internet信息重组的重要手段.通过对政府公文信息格式进行了研究,提出了一种基于XML的信息抽取中间件模型,通过基于串匹配与串频统计相结合的分词处理、利用遗传算法的词类标注以及基于改进的隐马尔科夫模型的XML模板自动填充,可以快速的对Internet上的政府公文信息进行信息重组,以供相关应用系统使用.

关键词：政府公文、信息抽取、中间件、分词处理、词类标注、模板填充

所属期刊栏目：28

分类号：TP391.1(计算技术、计算机技术)

资助基金：深圳市科学与信息局科技基金05KJCD020

在线出版日期：2007-04-23（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：1158-1160

英文信息展示

期刊专题