10.3969/j.issn.1000-7024.2014.01.061
基于模板和领域本体的Deep Web信息抽取研究
为简化模板的抽取规则、提高抽取的准确率,提出了一种基于双模板和领域本体的Deep Web信息抽取方法.该方法采用DIV块模板和表格模板结合的方法,建立双模板.利用基于中文分词的网页预处理结果,在领域本体知识的指导下,通过C4.5决策树算法来训练分类模型,筛选出待抽取的DIV块序号,构建DIV块模板,从而可以精确定位到数据块.利用XML技术构建XSLT文档,得到表格模板的抽取规则,从而抽取出数据片段.选取天气领域进行Deep Web信息抽取实验,实验结果表明,抽取准确率和召回率都可以达到95%以上,取得了较好的抽取效果.
Deep Web、信息抽取、模板、领域本体、决策树
35
TP311(计算技术、计算机技术)
国家自然科学基金项目61103142
2014-03-12(万方平台首次上网日期,不代表论文的发表时间)
共6页
327-332