10.3969/j.issn.1001-3695.2013.03.052
一种垂直页面分割与信息提取方法的研究
在综合分析不同页面分割算法和适用条件的基础上, 研究针对垂直型网站的页面分割和信息提取算法。以DOM(document object model)树为基础, 提出页面内容聚集度的概念, 统计获取页面分割标签和样式层叠表映射, 对页面进行分割; 采用正文识别和前缀匹配的方法, 完成从页面分块信息提取。结合实际的网络视频项目需求, 实现面向垂直型网站页面的分割和信息提取器。实验结果表明, 该网页分割和信息提取方法对垂直页面信息提取具有良好的性能, 满足实际项目需求。
页面分割、信息获取、垂直网站、内容聚集度、分割标签、前缀匹配
30
TP391(计算技术、计算机技术)
国家“863”计划资助项目2011AA01A102;国家科技支撑计划重点资助项目2011BAH08B01;中国科学院战略性先导科技专项子课题XDA06010302
2013-05-03(万方平台首次上网日期,不代表论文的发表时间)
共5页
844-847,852