10.3969/j.issn.1001-6600.2007.02.035
一种基于块分析的网页去噪音方法
一张网页通常由许多信息块组成,除了主题内容块以外,还常常包含广告信息、导航条、版权信息等信息块.结合网页块大小、位置等信息以及网页本身的一些特点,提出了一种基于块分析的、自动调整阈值的去除噪音方法,该算法显著减少了网页的噪音,并通过网页分类对比实验证明了该算法的有效性.
网页、噪音、信息提取、HTML
25
TP391(计算技术、计算机技术)
福建省科技攻关项目2004I014;福建省自然科学基金A0510020
2007-07-02(万方平台首次上网日期,不代表论文的发表时间)
共4页
149-152