10.3969/j.issn.1003-3254.2013.07.008
改进空间向量模型主题网络爬虫系统①
详细阐述了主题网络爬虫实现的关键技术,将传统的空间向量模型进行改进形成自适应的空间向量模型,结合网页内容和链接两个方面进行网页相关度计算,设计并实现了一个面向主题的网络爬虫系统。针对主题网络爬虫爬行中出现的页面捕捉不全问题还提出了一种改进的手动与遗传因子相结合的网页搜索策略。最后给出实验结果,证明该系统的可行性及优越性。
主题爬虫、相关度计算、搜索策略、遗传因子
TP3;G25
2013-08-03(万方平台首次上网日期,不代表论文的发表时间)
共5页
36-39,52