10.3969/j.issn.1001-3695.2010.12.001
Web信息抽取技术综述
快速高效地获取网页主题信息的需求使得Web信息抽取技术成为信息技术领域的研究热点.现有的Web信息抽取技术大致可以归纳为基于统计理论的、基于视觉特征的、基于DOM树结构的和基于模板的几类.由于网页文本本身具有树结构并且具有一定的相似性,基于DOM树结构和基于模板的抽取技术发展很快而且已经得到了广泛的应用.分别论述了上述几类技术在近几年来的研究进展,从自动化程度、适用范围和复杂性三个角度分析对比了几类技术的优缺点.
Web信息抽取、网页噪声、URL聚类、DSE算法、RoadRunner系统、MDR、视觉特征、模板
27
TP391(计算技术、计算机技术)
中央高校基本科研业务费专项资金资助项目BLYX200928
2011-01-28(万方平台首次上网日期,不代表论文的发表时间)
共5页
4401-4405