10.3969/j.issn.1000-3428.2010.08.096
面向垂直搜索引擎的Web站点划分方案
分析传统搜索引擎分配任务的方式及存在的问题,根据垂直搜索引擎的特点,提出一种比传统方法粒度更细的任务分配方式--网站划分.该分配方式将较大规模的网站切分为若干较小规模的子集,并将子集交给若干爬虫节点并行抓取,以加快爬虫系统的整体获取速率,作为对传统方法的有效优化.将网站划分算法应用于样本数据集,验证其有效性.
垂直搜索引擎、任务分配、网站划分、爬虫
36
N945(系统科学)
国家自然科学基金资助项目60703014;国家"973"计划基金资助项目G2005CB321806;高等学校博士学科点专项科研基金资助项目20070213044;哈尔滨工业大学优秀青年教师培养计划基金资助项目HITQNJS.2007.034
2010-05-31(万方平台首次上网日期,不代表论文的发表时间)
共3页
275-277