DOI：10.3969/j.issn.1000-3428.2017.06.020

基于知识图谱的Web信息抽取系统

引用

摘要：

为实现多领域海量网页信息的有效抽取,以中文知识图谱CN-DBpedia为基础设计Web信息抽取系统.基于知识图谱对网页数据项进行自动标注,建立具有容错能力的包装器归纳框架,从包含错误的标注集中归纳学习出正确的包装器.实验结果表明,该系统的准确率和召回率均高于传统人工标注方法,可显著降低网页信息抽取过程中的人力成本,灵活运用于大规模、多领域的网页信息抽取任务.

关键词：知识图谱、多领域、Web信息抽取、网页自动标注、容错、包装器归纳框架

所属期刊栏目：43

分类号：TP18(自动化基础理论)

资助基金：上海市科技创新行动计划基础研究项目15JC1400900;上海市自然科学基金13ZR1417700

在线出版日期：2017-07-31（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：118-124

英文信息展示

期刊专题