10.3969/j.issn.1000-3428.2005.20.021
基于网页结构树的Web信息抽取方法
提出了网页结构树提取算法及基于网页结构树的Web信息抽取方法.抽取信息时,在网页结构树中定位模式库中的待抽取信息,用模式库中的待抽取信息和网页结构树的叶结点对应的网页信息进行匹配.因而对网页信息的抽取,可以转化为对网页结构树的树叶结点信息的查找.实验证明,该方法具有较强的网页信息抽取能力.
信息抽取、半结构、网页结构树、模式
31
TP301.6(计算技术、计算机技术)
国家自然科学基金60003019;广东省自然科学基金990582;广东省科技攻关项目C10201
2005-11-17(万方平台首次上网日期,不代表论文的发表时间)
共3页
54-55,140