10.13266/j.issn.0252-3116.2018.04.016
基于回归分析的网络恐怖信息主题爬虫
[目的/意义]针对目前从开源网络信息中采集网络恐怖信息难、采集效率低的问题,提出一种回归分析法,以综合语义相关与网页重要性两个因素,从而提高网络恐怖信息的采集效率.[方法/过程]通过分析、比较主题爬虫的特性,结合网络恐怖信息的特点,找出PageRank算法和TF-IDF算法中适用于恐怖信息采集的优点,并结合回归分析法,将恐怖信息的采集策略进行相关度预测,用预测结果反馈调节信息的采集过程.[结果/结论]网络恐怖信息采集要兼顾采集的数量和质量,在传统主题爬虫算法的基础上进行改进,提出针对于开源网络恐怖信息采集的爬虫优化算法,可以提高信息采集效率.
主题爬虫、回归分析、网络反恐、语义相似度
62
G206(信息与传播理论)
国家自然科学基金项目“微博环境下实时主动感知网络舆情事件的多核方法研究”71303075;“大数据环境下基于特征本体学习的无监督文本分类方法研究”71571064
2018-04-10(万方平台首次上网日期,不代表论文的发表时间)
共9页
121-129