10.3969/j.issn.1000-565X.2011.04.006
基于权值优化的网页正文内容提取算法
目前网页上出现越来越多的广告信息,使得准确抽取网页正文信息变得越来越难.针对这一问题,文中提出了一种基于权值优化的网页正文内容提取算法.该算法首先通过分析网页正文内容的特点,确定主题块的特征属性,得出这些属性的统计特征;然后,利用各个特征属性具有不同重要性的特点,使用粒子群优化算法对特征权值及阈值进行了优化和确定,使其性能得到进一步的提升;最后通过实验对该方法进行验证.结果表明,与未经权值优化的提取算法相比,在基本维持相同精确率的基础上,该方法可使网页正文内容提取的召回率提升至95.8%.
权值优化、正文内容提取、特征属性、统计特征、准确率、召回率
39
TP391(计算技术、计算机技术)
国家"973"计划项目2007CB311106
2011-08-16(万方平台首次上网日期,不代表论文的发表时间)
共6页
32-37