10.3969/j.issn.1673-629X.2014.03.036
基于关键词相关性的有害信息爬虫系统研究
传统的互联网有害信息发现方法是依据Google、百度等元搜索工具,用户输入关键词进行检索,然后对获取的结果进行研判,但是用户经常无法准确地描述所需的资料,给出的关键词不准确,搜索结果常有用户不关心的垃圾数据,而一些有用的数据却不能列出。文中探讨了一种基于元搜索,引入关键词扩充技术的爬虫方法。该方法在网页抓取,用户检索的时候能扩充输入的关键词,从而提高搜索覆盖率和精度。该方法投入小,效果好,还可通过扩展应用到其他领域。
元搜索、爬虫、扩充、索引
TP302.1(计算技术、计算机技术)
公安部重点研究项目;国家“863”高技术发展计划项目2008AA01Z408
2014-03-22(万方平台首次上网日期,不代表论文的发表时间)
共4页
143-146