10.3969/j.issn.1000-0135.2004.04.001
一种HTML网页净化方法
Web网页中的"噪音"是影响基于网页内容的Web应用系统工作质量的一个重要因素,快速准确地清除网页中的噪音内容是提高Web应用服务质量的关键技术之一.本文提出一种网页净化的方法及相应算法.该方法以一组启发式规则为基础,利用信息检索的技术以及Web网页的特征,提取网页的主题以及和主题相关的内容,从而达到网页净化的目的.该方法已经应用于搜索引擎系统(天网)的网页消重过程以及一个网页自动分类系统.通过网页净化对原有系统质量的改进验证了本文提出方法的正确性和有效性.
World Wide Web、网页净化、信息提取、HTML
23
G35;TP3
国家重点基础研究发展计划973计划G1999032706
2004-09-23(万方平台首次上网日期,不代表论文的发表时间)
共7页
387-393