10.3969/j.issn.1000-3428.2017.06.020
基于知识图谱的Web信息抽取系统
为实现多领域海量网页信息的有效抽取,以中文知识图谱CN-DBpedia为基础设计Web信息抽取系统.基于知识图谱对网页数据项进行自动标注,建立具有容错能力的包装器归纳框架,从包含错误的标注集中归纳学习出正确的包装器.实验结果表明,该系统的准确率和召回率均高于传统人工标注方法,可显著降低网页信息抽取过程中的人力成本,灵活运用于大规模、多领域的网页信息抽取任务.
知识图谱、多领域、Web信息抽取、网页自动标注、容错、包装器归纳框架
43
TP18(自动化基础理论)
上海市科技创新行动计划基础研究项目15JC1400900;上海市自然科学基金13ZR1417700
2017-07-31(万方平台首次上网日期,不代表论文的发表时间)
共7页
118-124