10.3969/j.issn.1673-629X.2011.02.015
基于视觉特征和领域本体的Web信息抽取
为了解决网页信息的自动抽取,该文提出了一种基于视觉特征和领域本体的Web信息抽取算法.该算法以基于领域本体的信息抽取为基础,根据网页的视觉特征来准确划定信息抽取区域,然后结合DOM树技术和抽取路径的启发式学习,获得Web贞面中信息项的抽取路径.通过信息项的抽取路径自动生成信息项的领域本体,通过信息项的领域本体解析出信息项的抽取规则.使用本算法来进行Web信息的抽取,具有查全率与查准率高、时间复杂度低、用户负担较轻和自动化程度高的特点.
视觉特征、领域本体、Web信息抽取、路径学习、启发式学习
21
TP391.4(计算技术、计算机技术)
贵州省2008年省级信息化专项基金项目0830;贵州省科技计划工业攻关基金项目黔科合GY字[2008]3035
2011-06-14(万方平台首次上网日期,不代表论文的发表时间)
共5页
58-61,65