10.3969/j.issn.1003-3254.2006.07.011
两种适用于中文信息搜集的URL散列函数的研究
为了适应Internet信息量的快速增长,搜索引擎采用分布式技术搜集信息.采用分布式搜集技术的具体应用中主要存在两个关键问题:URL匹配和系统负载平衡.针对现有的几种分布式信息搜集系统的设计中存在的一些不足,提出了利用URL分级散列进行定位和匹配的方法.根据中文网络信息的特点,分析了几个对字符串散列较好的函数,设计了两种URL散列函数,应用于分布式中文信息搜集系统中.实验表明,系统在减少URL匹配的资源消耗和提高系统负载的均衡性方面有很好的效果.
散列函数、分布式、搜索引擎、匹配、负载平衡
TP3(计算技术、计算机技术)
2006-07-31(万方平台首次上网日期,不代表论文的发表时间)
共4页
42-44,48