10.3969/j.issn.1009-8119.2015.16.126
关于网页净化与网页消重的技术研究
本文介绍了网页净化相关技术及其在Web信息挖掘中的重要作用,研究分析了网页分割模型的优势和不足。提出一种新的网页分割模型DSS_DOM,并研究了基于DSS_DOM模型的网页净化算法,该算法基于对网页噪音特点的分析,总结出一套评价准则,通过分配权重方式判断网页各逻辑区域重要性,识别出主题区域和噪音区域,达到净化网页的目的。利用开源项目Lucene对净化后的网页集建立索引,在网页净化基础上实现搜索功能。
网页净化、DOM、网页分割、网页噪音、网页分类
TP3;G35
2015-09-16(万方平台首次上网日期,不代表论文的发表时间)
共1页
138-138