10.3969/j.issn.0252-3116.2005.04.021
Web信息主题采集技术研究
简单介绍主题信息采集系统;从5个方面对其核心技术进行深入研究,包括种子页面生成、主题表示、相关度计算策略、爬行策略以及结束搜索策略等;详细讨论种子页面生成的人工方式、自动方式及混合方式,基于关键词的主题表示与基于Ontology的主题表示,多种相关度计算启发式策略比较,基本爬行策略与隧道技术以及结束爬行的多种情形等;在分析相关技术的算法、特点与应用情况的同时,针对主题信息采集特点提出相应的改进意见.
Web、搜索引擎、主题采集、技术
49
G250.76;G252.7(图书馆学、图书馆事业)
2007-07-23(万方平台首次上网日期,不代表论文的发表时间)
共5页
77-80,70