10.3969/j.issn.1003-6938.2014.05.025
网络竞争情报主题采集技术研究
文章设计与实现了一种网络竞争情报的主题采集系统。该系统在进行主题预测时采用的基于改进的朴素贝叶斯算法提高了主题判断准确率,在进行链接预测时采用的基于规则与锚文本主题相似度结合的算法,避免了URL锚文本较短和噪声的问题。与宽度优先的采集技术相比,通过实验验证该方法具有明显的优越性。
竞争情报、主题爬虫、链接过滤、主题过滤
G250.2(图书馆学、图书馆事业)
2014-12-19(万方平台首次上网日期,不代表论文的发表时间)
共6页
132-137