10.3969/j.issn.1007-130X.2011.01.030
面向Web论坛的网络信息获取技术及系统实现
网络爬虫技术是网络信息获取的重要手段,面向Web论坛的信息获取则是网络爬虫技术所面临的新课题.在分析和研究面向Web论坛信息获取技术的基础上,本文设计和实现了一种用于Web论坛信息获取的主题网络爬虫系统,根据Web论坛信息组织结构,提出了基于遍历策略的信息搜索技术;根据正文信息分布及论坛自身特点,提出了基于DOM与分块算法相结合的正文提取技术.实验结果表明,遍历策略比传统的网络爬虫遍历策略具有更高的效率,能够采集到更多主题相关度高的网页;经过噪声清洗处理后,有效提取网页正文,提高了信息采集精度.
网络爬虫、Web论坛、正文提取、主题相关度
33
TP393(计算技术、计算机技术)
国家863计划资助项目2009AA01Z424;2009届西北工业大学本科毕业设计重点扶持项目
2011-04-28(万方平台首次上网日期,不代表论文的发表时间)
共4页
157-160