DOI：10.3969/j.issn.1673-4785.2007.01.006

基于非内容信息的网络关键资源有效定位

引用

摘要：

网络信息的爆炸式增长,使得当前任何搜索引擎都只可能索引到Web上一小部分数据,而其中又充斥着大量的低质量信息.如何在用户查询无关的条件下找到Web上高质量的关键资源,是Web信息检索面临的挑战.基于大规模网页统计的方法发现,多种网页非内容特征可以用于关键资源页面的定位,利用决策树学习方法对这些特征进行综合,即可以实现用户查询无关的关键资源页面定位.在文本信息检索会议(TREC)标准评测平台上进行的超过19G文本数据规模的实验表明,这种定位方法能够利用20%左右的页面覆盖超过70%的Web关键信息;在仅为全部页面24%的关键资源集合上的检索结果,比在整个页面集合上的检索有超过60%的性能提高.这说明使用较少的索引量获取较高的检索性能是完全可能的.

关键词：网络信息检索、关键资源页面、主题过滤、机器学习

所属期刊栏目：2

分类号：TP181;TP391.3(自动化基础理论)

资助基金：国家重点基础研究发展计划973计划2004CB318108;国家自然科学基金60223004;60321002;60303005;60503064;教育部科学技术研究重点项目104236

在线出版日期：2007-04-05（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：45-52

英文信息展示

期刊专题