10.3969/j.issn.2095-6835.2010.33.006
一种基于自动WEB数据抽取生成黄页的方法
利用蜘蛛技术爬取相关行业网站的数据.通过基于一种基于新的定位与模式匹配抽取WEB数据的方法,将得到的数据分类后以XML文件保存;通过相应的信息处理、表现技术对分类后的行业URL地址进行展现.最后以林业行业网址的获取和黄页的生成为例进行了实现.
行业黄页、WEB信息抽取、模式匹配、抽取规则
26
TP3;F71
2014-07-08(万方平台首次上网日期,不代表论文的发表时间)
共3页
14-16