10.3969/j.issn.1008-0570.2009.03.082
基于网络日志分析的混合策略主题爬虫
为适应主题的动态性和完整性,本文提出了一种基于网络日志分析的混合策略主题爬虫.首先,它通过对网络日志的分析,一方面发现种子页面,有效扩充主题群落;另一方面挖掘用户兴趣,进一步精确描述主题.然后,爬虫从新种子集出发,结合用户兴趣,采用混合策略,对页面进行筛选.实验证明,该爬虫能够有效地采集更多的主题页面.
主题爬虫、网络日志、主题群落、用户兴趣、混合策略
25
TP393(计算技术、计算机技术)
颁发部门:国家自然科学基金委员会信息科学二处原计算机科学学科90612016;基金项目名称:计算化堂E-SCIENCE研究与示范应用
2009-04-03(万方平台首次上网日期,不代表论文的发表时间)
共3页
200-202