使用分类器自动发现特定领域的深度网入口
在深度网研究领域,通用搜索引擎(比如Google和Yahoo)具有许多不足之处:它们各自所能覆盖的数据量与整个深度网数据总量的比值小于1/3;与表层网中的情况不同,几个搜索引擎相结合所能覆盖的数据量基本没有发生变化.许多深度网站点能够提供大量高质量的信息,并且,深度网正在逐渐成为一个最重要的信息资源.提出了一个三分类器的框架,用于自动识别特定领域的深度网入口.查询接口得到以后,可以将它们进行集成,然后将一个统一的接口提交给用户以方便他们查询信息.通过8组大规模的实验,验证了所提出的方法可以准确高效地发现特定领域的深度网入口.
深度网、表层网、深度网入口、搜索表单
19
TP393(计算技术、计算机技术)
国家自然科学基金60373099;吉林省科技发展计划20070533
2008-05-15(万方平台首次上网日期,不代表论文的发表时间)
共11页
246-256