10.3969/j.issn.1000-3428.2003.09.018
多信息块Web页面中的抽取规则
以往的包装器主要针对仅含有一个数据块的Web页面,而对含有多个信息块的Web页面,简称MIB(MultipleInformation Block)Web页面无法处理.该文提出了一个新的抽取规则,结合了基于文档结构的抽取规则和基于特征Pattern匹配的抽取规则的优点,能够有效地抽取MIB Web页面中的信息.
Web、信息抽取、包装器、抽取规则、信息集成
29
TP391;TP392(计算技术、计算机技术)
国家自然科学基金60073030;国家高技术研究发展计划863计划2001AA114041
2004-01-08(万方平台首次上网日期,不代表论文的发表时间)
共4页
42-44,50