10.3969/j.issn.1000-3428.2002.09.019
Web页面清洗技术的研究与实现
文章提出了Web页面清洗的概念,给出了一种基于规则的Web页面清洗方案,并实现了基于此方案的系统.文中的页面清洗建立在Web页面的DOM树结构上,并通过人工判定的方法进行了实验和评估.实验结果表明该方案切实可行、清洗方法具有较快的速度和准确性.
Web页面清洗、文本块、链接块、DOM、解析器
28
TP311(计算技术、计算机技术)
国家自然科学基金60073030;富士通研究所科研项目
2004-01-08(万方平台首次上网日期,不代表论文的发表时间)
共4页
48-50,197