DOI：10.3969/j.issn.1007-855X.2000.03.007

新一代Web搜索引擎中数据的抽取

引用

摘要：

Internet 上日新月异的大量信息资源充斥,这对搜索引擎提出更高要求.为提高搜索引擎中Spider的智能化,引入一种新的数据模型和文档自动检索模型,其中文档自动检索主要由关键字提取和抽取文摘两部分组成.在此模型基础之上构造全新的数据检索方法,用模型匹配的方法搜索网页为此模型提供带权值的信息资源,为精确描述WEB信息提供了依据.这种检索方法同时增强了Spider的适应性 ,简化了编程维护工作量.

关键词：搜索引擎、模型匹配、关键字提取、抽取文摘

所属期刊栏目：25

分类号：TP391.3(计算技术、计算机技术)

在线出版日期：2004-01-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共3页

页码：22-24

英文信息展示

期刊专题