自动结构化数据的电商网站主题爬虫研究

引用

摘要：

当前对于拥有海量数据的互联网,经常需要采集多个源站的结构化数据以用于数据分析、挖掘,而为不同网站定制数据采集程序的人工成本很高,本文提出了一种自动结构化网站数据的主题爬虫方案.以电商类网站为例,基于其具有统一层次结构、垂直领域拥有行业语料和规范的特点,从理论角度确定了结构化提取方案的可行性.提出相似重复检测和基于属性语义的标签匹配等算法,实现结构的分析和目标字段的匹配,并出于系统管理和调优的考虑,设计了预设匹配模板和结构分析结果复用机制.实际应用和错误率测试表明,本方案具有很强的可行性,能够大大减少人工编写的代码,错误率较低.设计思路可应用于其他领域的主题爬虫系统,快速获得多个站点的大量数据,将焦点更多地放在结构化数据的处理和信息挖掘.

关键词：自动结构化、爬虫、标签匹配、多源站、电商网站

所属期刊栏目：27

资助基金：广东省教育厅青年创新人才项目自然科学2016KQNCX092

在线出版日期：2018-08-23（万方平台首次上网日期，不代表论文的发表时间）

页数：共6页

页码：90-95

英文信息展示

期刊专题