自动结构化数据的电商网站主题爬虫研究
当前对于拥有海量数据的互联网,经常需要采集多个源站的结构化数据以用于数据分析、挖掘,而为不同网站定制数据采集程序的人工成本很高,本文提出了一种自动结构化网站数据的主题爬虫方案.以电商类网站为例,基于其具有统一层次结构、垂直领域拥有行业语料和规范的特点,从理论角度确定了结构化提取方案的可行性.提出相似重复检测和基于属性语义的标签匹配等算法,实现结构的分析和目标字段的匹配,并出于系统管理和调优的考虑,设计了预设匹配模板和结构分析结果复用机制.实际应用和错误率测试表明,本方案具有很强的可行性,能够大大减少人工编写的代码,错误率较低.设计思路可应用于其他领域的主题爬虫系统,快速获得多个站点的大量数据,将焦点更多地放在结构化数据的处理和信息挖掘.
自动结构化、爬虫、标签匹配、多源站、电商网站
27
广东省教育厅青年创新人才项目自然科学2016KQNCX092
2018-08-23(万方平台首次上网日期,不代表论文的发表时间)
共6页
90-95