10.3969/j.issn.1000-7024.2014.09.008
基于T-Graph算法的主题爬虫研究
为解决传统主题爬虫抓取特定领域的网页信息效率低下问题,在分析主题爬虫算法T-Graph的基础上,提出一种改进的T-Graph主题爬虫算法.利用维基百科的相关知识,采用语义分析的特征项提取算法提取特征项,在词的语义层次上对文本进行相似度计算,且综合考虑了网页中不同位置文本的权重问题.将改进前后的算法进行实验对比,实验结果表明,在提高主题爬行质量方面,改进后的算法效果更好.
主题爬虫、T-Graph、维基百科、相似度计算、权重
35
TP393(计算技术、计算机技术)
山东省教育科学规划攻关课题基金项目ZK1037123C023
2014-10-27(万方平台首次上网日期,不代表论文的发表时间)
共5页
3014-3017,3028