10.3969/j.issn.1000-0135.2008.02.016
中文Deep Web的大小、质量及分布
Deep Web中包含着大量高质量内容,当前的搜索引擎技术还不能对其进行搜索,研究Deep Web的大小、质量及分布情况将有助于找到对其进行有效搜索的方法和技术.以网络蜘蛛采集的2006年10月的数据为样本,利用统计、概率等定量方法和定性方法,首次对中文Deep Web的大小、质量及分布情况进行调查,得出概况如下:① Deep Web大小比Surface Web 的大240倍以上;②包含的文件总数量和总存储量分别为507亿、11 700TB;③可搜索数据库数量超过3万个;④内容质量较高;⑤内容主题分布不均匀.
Deep Web、中文Web、搜索引擎
27
G35(情报学、情报工作)
2008-05-05(万方平台首次上网日期,不代表论文的发表时间)
共5页
256-260